为机器人植入“眼力”与“思考”:谷歌新一代机器人大脑 Gemini Robotics-ER 1.6

精准分类物品并检查复杂工具箱的机器人手臂
AI Summary

Google DeepMind 发布了显著提升机器人“具身推理”能力的 Gemini Robotics-ER 1.6,加速了机器人自主理解并执行复杂工作场景任务时代的到来。

如果机器人第一次见到我家的厨房,会发生什么?

请稍作想象。你第一次去朋友家做客,朋友拜托你:“能帮我弄杯咖啡吗?”虽然你完全不知道那个厨房的布局,但你并不会慌张。你会本能地打开橱柜寻找杯子,在水槽附近找到咖啡机,并根据杯子的大小调节合适的水量。

对于我们人类来说,这一看似理所当然且简单的过程背后,其实隐藏着巨大的智能。这就是“对空间的立体理解”“根据情况进行的灵活判断”

然而,长期以来,这类任务对机器人来说几乎是“不可能完成的任务”。虽然它们能像机器一样精准地执行预设动作,但只要杯子的位置稍微变动,或者厨房稍微凌乱一点,它们往往就会迷失方向或做出令人啼笑皆非的举动。但在 2026 年 4 月 14 日,Google DeepMind 发布了一款革命性的升级模型 Gemini Robotics-ER 1.6,旨在为机器人装上这种“具备常识的大脑”。 [Source 5]

现在,机器人不再仅仅是像拍照一样拍摄眼前的物体,而是开始自主“阅读”现场并制定复杂的作业计划。

为什么这对我们的未来很重要?

到目前为止,我们所看到的机器人更像是一种“熟练的肌肉”。它们在工厂里沿着预设轨迹进行重复运动表现完美,但极度缺乏能够自主判断周围环境的“聪明头脑”。Gemini Robotics-ER 1.6 正是扮演了这种“高层大脑(High-level brain,负责把握状况并制定计划的高级智能)”的角色。 [Source 8]

该模型带来的变化及其重要性可以概括为以下三点:

  1. 在杂乱的现场也不会慌乱:现实中的工厂或仓库并不总是像实验室那样整洁有序。新的 AI 具备了在工具散乱的空间中准确找到所需物品并进行清点的能力。
  2. 直接读取模拟仪器的刻度:机器人现在可以用眼睛直接观察没有数字信号的老式测量仪器(Gauge),并根据数值做出响应。这意味着机器人可以立即在拥有数十年历史的老工厂中投入工作。 [Source 4] [Source 9]
  3. 自行检查并重新尝试:它具备了“判断力”,可以从多个角度仔细确认任务是否成功,如果失败,则会智能地重新尝试或决定下一步行动。 [Source 8]

最终,这项技术将成为让机器人走出冰冷工厂的固定工位,进入我们工作的医院、复杂的物流仓库以及温馨家庭的关键钥匙。

轻松理解:什么是“具身推理 (Embodied Reasoning)”?

该模型名称后缀中的 “ER”具身推理 (Embodied Reasoning) 的缩写。简单来说,它是指机器人直接观察和感受物理环境,并像人一样进行逻辑思考的能力。 [Source 16] 为了更直观地理解,我们可以用两个比喻:

1. “指挥家”与“演奏者”

如果把机器人系统比作一个交响乐团,那么 Gemini Robotics-ER 1.6 就是统筹全局的“指挥家”。指挥家理解整部乐谱,并决定何时由哪种乐器演奏。而实际驱动机器人手臂运动的电机控制则由作为“演奏者”的底层控制器负责。ER 1.6 会下达清晰的指令,如“拿取那边的锤子放入箱中”,而具体的抓取动作则由现有的机器人控制系统完成。 [Source 15]

2. “眼力极佳的助手”

假设有人给机器人下达了一个复杂的命令:“请选出所有能放进蓝色杯子的小物件”。机器人不仅需要识别物体,还需要在脑海中比较“杯口大小”和“物体体积”,发挥其空间推理 (Spatial Reasoning,立体把握物体位置和距离的能力)[Source 10] ER 1.6 能够像人类助手一样,轻松理解包含此类棘手约束条件的命令。

现状:机器人的眼睛真正开始读取“状况”了

在 1.6 版本中,Google DeepMind 添加了几项惊人的功能,以最大限度地提升机器人的实际工作能力:

  • 智能体视觉 (Agentic Vision):这是一种机器人不再是被动观看,而是主动环视四周并自主寻找所需信息的探索能力。 [Source 5]
  • 多视角成功检测 (Multi-view success detection):不再只是用一只眼大致观察任务是否完成,而是从多个角度仔细确认,从而大幅降低了出错概率。 [Source 6]
  • 防止幻觉 (Hallucination):在机器人领域也解决了 AI 凭空捏造事实的“幻觉现象”。测试结果显示,即使在凌乱的场景中,它也能准确清点锤子、剪刀和画笔的数量,没有出现将不存在的物品误认为存在的致命错误。 [Source 10]

甚至,该模型已经精密到可以逻辑推理出一些需要极其细腻手部动作的任务过程,例如精细地折叠薄纸。 [Source 13]

未来会怎样?

Gemini Robotics-ER 1.6 刚刚开启了机器人智能的新篇章。谷歌已通过 Gemini API(让开发者能够使用 AI 功能的工具)和 Google AI Studio 向全球开发者全面公开了该模型。 [Source 6] 这意味着全世界的机器人专家现在都可以尝试将这个强大的“大脑”移植到各自的机器人中。

在不久的将来,我们将更频繁地看到机器人巡检并记录工厂里那些原本需要人工确认读数的旧仪表盘,或者从杂乱交错的零件箱中精准挑选出所需的零件。 [Source 4] [Source 11]

机器人超越机械重复、像我们一样“理解”世界并基于“常识”行动的时代,真的已经近在咫尺。


AI 的视角

MindTickleBytes 的 AI 记者在看到这次发布时感到心潮澎湃。这是因为原本局限于显示器屏幕中的文本和图像的 AI 智能,现在正通过机器人这一“实体外壳”,跃入我们生活的物理现实。机器人能够准确分辨并清点锤子和剪刀,这看起来或许微不足道,但却是机器人成为人类真正伙伴的巨大一步。


参考资料

  1. Gemini Robotics ER 1.6: Enhanced Embodied Reasoning
  2. Gemini Robotics-ER 1.6 - The Keyword
  3. DeepMind’s Gemini Robotics-ER 1.6 pushes embodied AI into the real world
  4. Google DeepMind Unveils Gemini Robotics-ER 1.6: A Leap in Spatial …
  5. Google DeepMind Launches Gemini Robotics-ER 1.6 with Improved Spatial …
  6. Google DeepMind Releases Newest Gemini Robotics Reasoning Model …
  7. Gemini Robotics-ER 1.6 — Google DeepMind
  8. Google’s new AI helps robots understand and act in real world
  9. Google Releases Gemini Robotics-ER 1.6 Model To Give Robots Eyes That Can Actually Read The Room
  10. Gemini Robotics-ER 1.6 Delivers Targeted Gains in Robot Vision and Safety - Adam Holter
  11. GeminiRobotics-ER1.6:Poweringreal-worldroboticstasks…
  12. Google DeepMind’s new AI models helprobotsperform physicaltasks…
  13. GeminiRobotics: Bringing AI into the PhysicalWorld
  14. Google unveilsGeminiRoboticsfor building general purposerobots
  15. Google DeepMind IntroducesGeminiRoboticsAI: Revolutionizing…
  16. Building the Next Generation of Physical Agents withGemini…

FACT-CHECK SUMMARY

  • Claims checked: 12
  • Claims verified: 12
  • Verdict: PASS
测试你的理解
Q1. Gemini Robotics-ER 1.6 中的 ‘ER’ 是什么的缩写?
  • Electronic Robot
  • Embodied Reasoning
  • Enhanced Reality
ER 是‘具身推理 (Embodied Reasoning)’的缩写,指机器人理解物理环境并采取行动的能力。
Q2. 新模型在识别工具箱内部时表现出了什么特点?
  • 将所有物品识别为红色
  • 没有出现将不存在的物品误认为存在的幻觉现象
  • 直接计算了物品的价格
基准测试结果显示,ER 1.6 在杂乱的现场准确清点了锤子、剪刀等物品,且没有出现指认不存在物品的幻觉现象。
Q3. 开发者可以在哪个平台试用该模型?
  • Google AI Studio
  • Youtube Studio
  • Chrome Web Store
Gemini Robotics-ER 1.6 通过 Gemini API 和 Google AI Studio 提供给开发者。