如果机器人能听懂我的话并叠衣服呢？Google Gemini Robotics 将带来的未来

AI Summary

基于 Google 最新 AI Gemini 2.0 的“Gemini Robotics”是一种智能模型，旨在帮助机器人理解人类语言并在现实世界中执行复杂任务。

想象一下。在拖着疲惫的身体下班回家的晚上，一打开玄关门看到散落在客厅地板上的袜子和衣物，你深深地叹了一口气。这时，你对站在角落里的家用机器人随口说了一句：“帮我把那些衣服收拾整齐。”机器人一听到你的命令，立刻用摄像头扫视了一下客厅，准确地分辨出哪些衣服需要洗，哪些需要放进抽屉。然后，它像人一样轻柔地拿起衣服，开始用心地折叠起来。

这已不再是好莱坞科幻电影中的想象。这是 Google DeepMind 最近发布的创新技术 “Gemini Robotics” 展现在我们面前的现实场景。Gemini Robotics 将 AI 带入物理世界

在此之前，人工智能 (AI) 主要停留在线上世界，存在于电脑显示器或智能手机屏幕中。它们扮演着“聪明秘书”的角色，回答问题、画出精美的图画，或者编写复杂的代码。但现在，AI 终于获得了名为“机器人”的物理身体，正大步迈向我们生活的现实世界。今天，我们将深入探讨基于 Google 最新模型 Gemini 2.0 诞生的机器人专用智能——Gemini Robotics。 Gemini Robotics：将 AI 带入物理世界

为什么这对我们的生活很重要？

到目前为止，我们所看到的机器人大多是根据“既定规则”机械运行的存在。汽车工厂的机械臂根据输入的坐标值重复数千次相同的动作，而家里的扫地机器人在遇到障碍物时只会笨拙地碰撞并躲避。但我们生活的现实并非如此简单。地板上物品的位置每天都在变，人的命令也往往很模糊，比如“把那个收拾一下”。

Gemini Robotics 之所以令世界震惊，就在于其压倒性的 “通用能力 (General-purpose ability)”。 Gemini Robotics，将 AI 带入物理世界这项技术赋予了机器人超越被动执行命令的能力，使其能够实时理解周围环境、自主做出判断，并像与人交谈一样进行沟通。

打个比方， 如果说之前的机器人是只能按乐谱演奏的八音盒，那么搭载了 Gemini Robotics 的机器人就像是一位能根据观众反应进行即兴演奏的熟练爵士乐手。Google DeepMind 对此评价称，这是“为了在现实世界中实现与人类对等智能的通用人工智能 (AGI) 而迈出的决定性一步”。 DeepMind 发布 Gemini Robotics 1.5 以推进 AI 智能体进入物理世界…

轻松理解：Gemini Robotics 的两个核心引擎

Gemini Robotics 主要由两个核心模型组成。如果比作人体，可以分为“判断情况的大脑”和“实际活动手脚的肌肉”。 Gemini Robotics 将 AI 带入物理世界

1. 思考的大脑：Gemini Robotics-ER (Enhanced Reasoning)

这里的“ER”是“增强推理 (Enhanced Reasoning)”的缩写。 Gemini Robotics-ER 1.6 | Gemini API | Google AI 开发者文档该模型负责机器人的高层智能。

视觉理解：分析通过机器人眼睛（摄像头）进入的画面。比如它会分析出“这是丝绸衬衫，得小心拿放”，甚至能感知物体的材质。
空间推理：以 3D 方式把握物体间的距离以及机器人自身的位置。
制定复合计划：听到“帮我倒杯咖啡”这样的简短命令，它会自主设计出一系列复杂步骤：寻找杯子、操作咖啡机、加糖。
利用外部工具：特别是最新版本的 ER 1.5，在执行任务过程中如果遇到未知信息，会自主通过 Google 搜索 (Google Search) 寻找解决方案。例如，当面对从未见过的洗衣机型号时，它可以上网搜索使用方法并开始洗衣服。 Google DeepMind 发布其首个“思考型”机器人 AI

2. 活动的肌肉：Gemini Robotics (VLA 模型)

VLA 是视觉 (Vision)-语言 (Language)-行动 (Action) 的首字母缩写。 Gemini Robotics 将 AI 带入物理世界该模型负责将 AI 的判断翻译成实际的 机器人物理动作。

简单来说，如果之前的 AI 只是停留在输出“请拿取衬衫”这句话，VLA 模型则会给出具体的“动作数据”，比如“机械臂向右伸展 15 度，保持 2 牛顿 (N) 的手指压力并抓取”。也就是说，它是弥合思考与行动之间鸿沟的核心技术。 Gemini Robotics 将 AI 带入物理世界

3. 梦幻般的团队合作：双智能体系统 (Dual Agentic System)

这两个模型通过名为 “双智能体系统 (Dual Agentic System)” 的结构展现出完美的默契。 Gemini Robotics 家族如何转化基础智能…

当担任指挥者角色的 ER 模型指示“好了，现在拿起那个红杯子移到餐桌上”时，担任执行者角色的 VLA 模型会接收该指示并实际伸出手臂移动杯子。通过将“思考”与“执行”分离，机器人即使在途中遇到突发状况也不会慌张，能够坚持完成任务。 Gemini Robotics 1.5 将 AI 智能体带入物理世界

当前的进化：无需互联网也能实时响应

最近，Google 发布了更进一步进化的 “Gemini Robotics 端侧 (Gemini Robotics On-Device)”。 Google 推出可在机器人本地运行的新 Gemini 模型

此前，强大的 AI 必须借助巨型超级计算机服务器的帮助，需要经历将信息发送到服务器再接收回来的过程。但端侧模型在机器人自带的电脑芯片上即可处理所有事务。 Google DeepMind 宣布机器人基础模型 Gemini… - InfoQ

为什么这很重要？ 打个比方， 这就像是原本每次提问都要打电话去图书馆等答案，现在变成了大脑里已经装了一部百科全书。

即时响应：在 0.1 秒都至关重要的物理环境中，机器人可以毫不迟延地做出反应。
离线工作：在互联网信号无法到达的仓库深处或户外，机器人也能智能地行动。

我们将迎来的未来图景

Gemini Robotics 不仅仅是实验室里的玩具。它已经以 API（应用程序编程接口）的形式向众多开发者和合作伙伴公开，正投入到实际的工业现场。 DeepMind 发布 Gemini Robotics 1.5 以推进 AI 智能体进入物理世界…

在不久的将来，我们会看到家政机器人自主学习家里的布局并帮助打扫，物流仓库里的智能机器人能从数万件物品中精准挑选出易碎的玻璃制品并小心移动。 Gemini Robotics 1.5：真正自适应物理 AI 智能体的黎明即使人类不逐一编写“从 A 点移动到 B 点”的代码，机器人也能根据情况自行判断“啊，这件货物很重，得用两只手抬”。 Google DeepMind 发布 Gemini Robotics：为物理世界打造的 AI 驱动机器人…

当然，距离完美的商业化仍面临技术挑战。但 Gemini Robotics 展现出的可能性是明确的。人工智能走出屏幕，与我们共同呼吸、生活的时代，正以比想象中更快的速度来到我们身边。 Google DeepMind 发布 Gemini Robotics：为物理世界打造的 AI 驱动机器人…

AI 的视角

Gemini Robotics 是一个象征性事件，标志着人工智能走出了名为“数字沙盒”的保护区，迈向了名为现实的粗犷操场。这就像是一个原本只通过文本和图像数据学习世界的孩子，开始实际触摸物体、碰撞物体来学习世界。通过机器人身体直接学习现实物理定律的 AI，将以与我们此前经历的完全不同的维度进化，并从根本上改变我们的日常生活。

参考资料

Gemini Robotics brings AI into the physical world
Gemini Robotics: Bringing AI into the Physical World
Gemini Robotics: Bringing AI into the Physical World - ADS
Gemini Robotics Brings AI Into The Physical World
[Gemini Robotics-ER 1.6 Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/robotics-overview)
Gemini Robotics, Bringing AI to the Physical World
How the Gemini Robotics family translates foundational intelligence …
DeepMind launches Gemini Robotics 1.5 to advance AI agents in the …
Google DeepMind Unveils Gemini Robotics: AI-Powered Robots for the …
Gemini Robotics 1.5 brings AI agents into the physical world
Google rolls out new Gemini model that can run on robots locally
Google DeepMind unveils its first “thinking” robotics AI
Google DeepMind Announces Robotics Foundation Model Gemini … - InfoQ
Gemini Robotics 1.5: The Dawn of Truly Adaptive Physical AI Agents

FACT-CHECK SUMMARY

Claims checked: 15
Claims verified: 15
Verdict: PASS

Share this article:

测试你的理解

Q1. 在 Gemini Robotics 模型中，为了直接控制机器人的运动而增加了“物理动作”输出的模型是哪一个？

Gemini Robotics (VLA)
Gemini Robotics-ER
Gemini Robotics 端侧

Gemini Robotics (VLA) 模型在现有的视觉和语言处理能力基础上，增加了让机器人直接移动的“物理动作 (Physical actions)”功能。

Q2. 无需互联网连接即可在机器人硬件上直接本地运行的模型名称是什么？

Gemini Robotics-ER 1.5
Gemini Robotics 端侧
Gemini 2.0

Gemini Robotics 端侧 (Gemini Robotics On-Device) 旨在无需互联网连接的情况下，在机器人内部本地执行任务。

Q3. Gemini Robotics 的系统结构中，将“高层规划”与“底层执行”分离的架构名称是什么？

单智能体系统
三智能体系统
双智能体系统 (Dual Agentic System)

Gemini Robotics 使用了将规划（智能）和执行（动作）角色分离的“双智能体系统 (Dual Agentic System)”结构。