如果 AI 终于有了“身体”？谷歌公开的“Gemini Robotics”全解析

AI Summary

基于谷歌最新 AI Gemini 2.0 的机器人专用模型现已公开，标志着 AI 不再仅仅是对话工具，而是进入了能够直接在现实世界中移动并使用工具的时代。

想象一下。 早晨起床看到凌乱的客厅而叹气时，你对角落里的机器人说：“我上班的时候把客厅收拾一下。哦，还有，洗衣机洗完后，把衣服拿出来放进烘干机里。”机器人完美地理解了你的话，区分并整理掉在客厅地板上的袜子和书本，然后直接操作洗衣机这一“工具”处理接下来的任务。

如果说之前的 AI 是在屏幕中为你写诗或画图的“聪明秘书”，那么现在它正在进化为在现实世界中直接动手动脚帮助我们的“能干助手”。谷歌 DeepMind（Google DeepMind）发布的 “Gemini Robotics” 正是这场变革的主角 Gemini Robotics brings AI into the physical world。

为什么这很重要？

长期以来，让机器人工作对专家来说也是一项极具挑战性的任务。在数字世界中，“写一首诗”的命令可以通过单词组合来解决，但现实世界要复杂得多。必须考虑物体的重量、表面的光滑程度、周围的障碍物，甚至是人的突发行为等数万种变量。

Gemini Robotics 是基于谷歌最尖端的 AI “Gemini 2.0”开发的机器人专用 AI 模型系列 Gemini Robotics: Bringing AI into the Physical World。该模型的出现主要从三个方面改变我们的未来：

将语言转化为行动的能力：超越了单纯回答问题的水平，能够通过视觉理解物理世界并进行实时反应（Act and React） [Gemini Robotics brings AI into the physical world…

TechNews](https://news-tech.io/ko/news/gemini-robotics-brings-ai-into-the-physical-world)。

复杂的跨步任务：对于“打扫卫生”这一句话中所包含的“捡起物品”、“分类”、“收纳”等需要多个步骤的复杂任务，能够自主计划并执行 Gemini Robotics 1.5: Google DeepMind가 새로 공개한 사고하고…。
与人类的真正协作：能够实时掌握人的声音和动作，安全地共同协作 GeminiRobotics:BringingAItothephysicalworld。

谷歌 DeepMind 对此评价道：“这是在现实世界中实现通用人工智能（AGI，人类水平的通用智能）的重要一步” Google DeepMind unveils Gemini Robotics 1.5 to bring AI …。

通俗易懂：Gemini Robotics 的工作原理

机器人如何能像人一样思考和行动？这背后隐藏着两项核心技术。

1. VLA 模型：看、听、动

Gemini Robotics 是一个 VLA（Vision-Language-Action，视觉-语言-行动） 模型 Gemini Robotics Brings AI Into The Physical World。

通俗地比喻，如果说现有的 AI 是“只剩嘴的绝顶天才”，那么 VLA 模型就是“长了眼睛和手的全才”。

视觉（Vision）：通过摄像头准确区分眼前的是衣服还是垃圾。
语言（Language）：理解主人日常命令的语境，例如“把这些衣服整理一下”。
行动（Action）：这是核心。Gemini 2.0 增加了“物理行动”这一新的输出方式，它能直接计算出需要用多大的力驱动机器人的电机才能抓起衣服，并下达指令 Gemini Robotics Brings AI Into The Physical World。

2. 双智能体系统：老板与员工的完美团队协作

Gemini Robotics 使用了一种名为“双智能体系统架构（Dual Agentic System Architecture）”的独特结构，以最大化工作效率 How the Gemini Robotics family translates foundational intelligence …。

这就像在公司里，老板（编排，Orchestration）勾勒大局说“这次项目的目标是这个”，然后专业员工（执行，Execution）在现场实际操作机器。

老板角色的 AI 发挥高维智能，制定整体工作顺序和计划。
员工角色的 AI 负责实际动作，每秒对机器人硬件进行数十次精细操作。通过这种分工，机器人即使在预料之外的情况下也能更快速、更准确地适应并行动。

现状：进展到什么程度了？

Gemini Robotics 并非单一模型，而是根据不同用途不断进化。

Gemini Robotics & Gemini Robotics-ER（2025年3月）：让机器人能够理解并对现实世界的物理法则做出反应的基础模型，为未来的机器人普及奠定了基石 Google DeepMind’s Gemini Robotics Brings AI into the Physical …。
Gemini Robotics On-Device（2025年6月）：最令人惊叹的功能之一。即使在没有互联网连接的地方，该模型也能在机器人内部自主运行 Google rolls out new Gemini model that can run on robots …。这意味着在地下室或互联网盲区，机器人也不会停止工作。
Gemini Robotics 1.5（2025年9月）：更聪明的最新版本。现在，机器人已经成为了能够自主“推理”、使用“工具”并解决多步复杂任务的“物理智能体” Gemini Robotics 1.5: Google DeepMind가 새로 공개한 사고하고…。例如，看到一堆衣服后能自主计划如何分类，如果遇到未知信息，还会通过互联网搜索寻找答案 Google DeepMind unveils its first “thinking” robotics AI。

未来会怎样？

Gemini Robotics 的出现将加速机器人从工厂走进我们的家庭、办公室和医院。在制造现场，实时适应变化工作环境的智能机器人将革新生产线 Gemini Robotics brings AI into the physical world - Digital…；在家庭中，我们将能见到真正的“机器人家务助理”，代我们处理复杂繁琐的家务。

谷歌 DeepMind 自信地表示，这项技术将成为让机器人更安全、更具适应性地执行实际任务的坚实基础 Google DeepMind’s Gemini Robotics Brings AI into the Physical …。现在，AI 正在跨越屏幕，成为在我们身边共同呼吸的存在。

AI 的视线

MindTickleBytes AI 记者的视线 AI 已经超越了聪明的头脑（软件），开始完美控制灵活的身体（硬件），这一点令人惊讶到甚至有些毛骨悚然。现在，“AI 无法从事体力劳动吧？”这种想法可能将成为过去。在 Gemini Robotics 带来的“物理 AI”时代，你想和什么样的机器人共处呢？

参考资料

Gemini Robotics brings AI into the physical world
Gemini Robotics: Bringing AI into the Physical World
Gemini Robotics Brings AI Into The Physical World
How the Gemini Robotics family translates foundational intelligence …
GeminiRobotics:BringingAItothephysicalworld - LinkedIn
Gemini Robotics 1.5: Google DeepMind가 새로 공개한 사고하고…
Google DeepMind unveils Gemini Robotics 1.5 to bring AI …
Google rolls out new Gemini model that can run on robots …
Google DeepMind’s Gemini Robotics Brings AI into the Physical …
Google DeepMind unveils its first “thinking” robotics AI

[Gemini Robotics brings AI into the physical world…

TechNews](https://news-tech.io/ko/news/gemini-robotics-brings-ai-into-the-physical-world)

Gemini Robotics brings AI into the physical world - Digital…

FACT-CHECK SUMMARY

Claims checked: 13
Claims verified: 13
Verdict: PASS

Share this article:

测试你的理解

Q1. Gemini Robotics 为了直接控制机器人而新增的输出方式（Modality）是什么？

文本生成
图像生成
物理行动（Physical Action）

Gemini Robotics 除了现有的文本和图像外，还增加了“物理行动”作为新的输出方式，以便直接控制机器人的动作。

Q2. 通过分离高层智能（计划）和底层执行来提高效率的系统架构名称是什么？

双智能体系统架构
单一智能结构
云端专用引擎

该系统采用了“双智能体系统架构”，将制定高维计划的“编排”阶段与负责实际动作的“执行”阶段分离开来。

Q3. 旨在无需互联网连接即可在机器人内部本地运行的模型名称是什么？

Gemini Robotics Cloud
Gemini Robotics On-Device
Gemini Robotics Global

2025年6月发布的“Gemini Robotics On-Device”模型可以在没有互联网连接的情况下，在机器人设备本身执行任务。