机器人真的在“思考”并行动吗?谷歌发布的 Gemini Robotics 故事

在现实环境中与人类互动并执行复杂任务的智能机器人形象
AI Summary

基于 Gemini 2.0 的 Gemini Robotics 是一项创新技术,它使机器人能够理解复杂环境,甚至使用工具,并根据自主判断进行活动。

机器人,现在开始理解“状况”而非仅仅听从“指令”

想象一下,客厅中央堆着一大堆衣服。你对机器人说:“帮我整理一下。”如果是传统的机器人,它只会按照预设的程序动作,比如“拿起衣服放进筐里”。但如果那堆衣服里混入了机器人从未见过的丝绸连衣裙或易碎装饰品呢?或者突然有一只猫从衣服堆里钻出来呢?

Google DeepMind 推出的 Gemini Robotics 正是让机器人在这种例外情况下能够自主“思考”和“判断”的技术 Gemini Robotics brings AI into the physical world。现在,AI 已经跨越了显示器里的文字和图片,直接走进了我们生活的真实物理世界(Physical World)。它不再仅仅是冰冷的机械臂在移动,而是具备了像人类一样察觉并应对状况的能力。

为什么这很重要?

到目前为止,大多数机器人都是“反应式系统(Reactive Systems)”。简单来说,就是必须输入成千上万条类似“看到 A 就做 B”的规则。然而,我们生活的世界极其复杂且瞬息万变。地板上一只袜子的位置每天都在变,物体的形状也会随光线角度的不同而看起来不同。人类几乎不可能预先为所有这些情况制定规则。

Gemini Robotics 的重要性在于它将机器人从简单的机器进化为 “通用智能体(General-purpose agents,能够自主执行多种目标的代理人)” Gemini Robotics 1.5 brings AI agents into the physical world。这意味着机器人可以自主解决复杂的物理课题,并灵活适应陌生的环境或指令 Paper page - Gemini Robotics: Bringing AI into the Physical World

Google DeepMind 将其描述为“在物理世界中实现通用人工智能(AGI,人类水平的智能)的重要一步” Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world。也就是说,AI 不仅拥有了聪明的“大脑”,还能完美控制用于行动的“身体”。

轻松理解:机器人的“眼、口、手”合而为一

要理解 Gemini Robotics,需要了解 VLA 模型这个术语。VLA 是视觉(Vision)、语言(Language)和行动(Action)的首字母缩写 Gemini Robotics: Bringing AI into the physical world - YouTube

我们可以用日常生活来打个比方。想象你在厨房做饭的场景:

  1. 视觉 (Vision):实时观察案板上的食材切到了什么程度,锅里的水是否溢出来。
  2. 语言 (Language):听到旁边帮忙的家人说“把火关小一点”并理解其含义。
  3. 行动 (Action):根据通过眼睛和耳朵获得的信息,动手调节煤气灶的火候并切菜。

以前,必须分别创建负责这三种功能的 AI 并将它们连接起来。担任眼睛角色的 AI 提供信息,担任嘴巴角色的 AI 进行解读,然后再向担任手部角色的 AI 下达指令。但 Gemini Robotics 基于谷歌最新的 AI Gemini 2.0,在一个巨大的“大脑”中同时处理所有这些过程 Gemini Robotics: Bringing AI into the Physical World - ADS

因此,机器人能够实时响应用户的声音,并根据眼前状况的变化敏捷地改变手部动作,具备了“熟练的技巧(Dexterous)” Gemini Robotics: Bringing AI into the physical world - LinkedIn。特别是 Gemini Robotics-ER (Embodied Reasoning,具身推理) 模型赋予了机器人卓越的空间和时间理解能力 Gemini Robotics: Bringing AI into the Physical World - arXiv。机器人不再仅仅是看到物体,而是会预测未来并行动,例如“如果挪动这个杯子,后面的盘子可能会倒下” Google DeepMind introduces two Gemini-based models to bring AI to the real world

现状:“思考型机器人”的出现与进化

在 2025 年的一年里,Google DeepMind 飞速发展了这项技术,不断突破机器人的极限。

打个比方,如果说以前的机器人只是勉强听命行事的“职场新人”,那么现在的机器人已经蜕变为能够自主搜索未知事物并解决问题的“资深专家” Gemini Robotics brings AI into the physical world - Digital India

未来会怎样?

目前,Gemini Robotics-ER 1.5 正通过 Google AI Studio 提供给开发者,而 Gemini Robotics 1.5 则以部分合作伙伴为中心率先引入,并在实际工业现场进行测试 Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world

这意味着在不久的将来,我们将在身边看到更多更聪明、更有能力的机器人。以前只能在工厂搬运固定物品的机器人,现在将成为帮助处理家务、管理复杂工艺的生产线、以及在危险灾难现场自主判断拯救生命的伙伴。曾经只是数字世界天才的 AI,现在正获得强壮的身体,大步向我们走来。机器人从我们的“工具”变为“伙伴”的未来,你准备好了吗?

AI 的视角

MindTickleBytes 的 AI 记者视角: AI 已经不仅仅是在国际象棋中获胜或画出精美画作,它现在已经准备好亲手拿起扫帚打扫房间或修理复杂的机器。Gemini Robotics 将成为开启真正智能体时代的钥匙,让人工智能不再停留在抽象的“数据”领域,而是延伸到实际物理世界的“行动”中。最令人鼓舞的是,机器人开始不仅仅将人类语言理解为文本,而是开始把握其中蕴含的意图和物理语境。

参考资料

  1. Gemini Robotics 1.5 brings AI agents into the physical world
  2. Gemini Robotics: Bringing AI into the Physical World (arXiv:2503.20020)
  3. Gemini Robotics: Bringing AI into the physical world - YouTube
  4. Google News - Google DeepMind launches Gemini Robotics - Overview
  5. Paper page - Gemini Robotics: Bringing AI into the Physical World
  6. Gemini Robotics: Bringing AI into the physical world - LinkedIn
  7. [Gemini Robotics brings AI into the physical world… TechNews](https://news-tech.io/ko/news/gemini-robotics-brings-ai-into-the-physical-world)
  8. Gemini Robotics brings AI into the physical world - Digital India
  9. Google DeepMind, Gemini 기반 VLA(Vision-Language-Action) 모델…
  10. Gemini Robotics brings AI into the physical world - Google DeepMind Blog
  11. Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world
  12. Gemini Robotics: Bringing AI into the Physical World - ADS
  13. Google DeepMind introduces two Gemini-based models to bring AI to the real world
  14. Google rolls out new Gemini model that can run on robots locally
  15. Google DeepMind unveils its first “thinking” robotics AI
测试你的理解
Q1. Gemini Robotics 基于哪款 AI 模型?
  • Gemini 1.0
  • Gemini 1.5 Pro
  • Gemini 2.0
Gemini Robotics 旨在将谷歌最新模型 Gemini 2.0 的能力扩展到物理世界。
Q2. 哪款模型旨在让机器人在没有互联网连接的情况下直接在内部执行任务?
  • Gemini Robotics-ER
  • Gemini Robotics On-Device
  • Gemini Robotics 1.5
Gemini Robotics On-Device 允许机器人在没有互联网连接的情况下在现场本地运行任务。
Q3. Gemini Robotics-ER 1.5 可以使用什么功能来查找未知信息?
  • 访问图书馆数据库
  • 调用类似 Google 搜索的工具
  • 向人类提问
Gemini Robotics-ER 1.5 具备“思考”能力,必要时可以直接调用 Google 搜索等外部工具来收集信息。