基于 Gemini 2.0 的 Gemini Robotics 是一项创新技术,它使机器人能够理解复杂环境,甚至使用工具,并根据自主判断进行活动。
机器人,现在开始理解“状况”而非仅仅听从“指令”
想象一下,客厅中央堆着一大堆衣服。你对机器人说:“帮我整理一下。”如果是传统的机器人,它只会按照预设的程序动作,比如“拿起衣服放进筐里”。但如果那堆衣服里混入了机器人从未见过的丝绸连衣裙或易碎装饰品呢?或者突然有一只猫从衣服堆里钻出来呢?
Google DeepMind 推出的 Gemini Robotics 正是让机器人在这种例外情况下能够自主“思考”和“判断”的技术 Gemini Robotics brings AI into the physical world。现在,AI 已经跨越了显示器里的文字和图片,直接走进了我们生活的真实物理世界(Physical World)。它不再仅仅是冰冷的机械臂在移动,而是具备了像人类一样察觉并应对状况的能力。
为什么这很重要?
到目前为止,大多数机器人都是“反应式系统(Reactive Systems)”。简单来说,就是必须输入成千上万条类似“看到 A 就做 B”的规则。然而,我们生活的世界极其复杂且瞬息万变。地板上一只袜子的位置每天都在变,物体的形状也会随光线角度的不同而看起来不同。人类几乎不可能预先为所有这些情况制定规则。
Gemini Robotics 的重要性在于它将机器人从简单的机器进化为 “通用智能体(General-purpose agents,能够自主执行多种目标的代理人)” Gemini Robotics 1.5 brings AI agents into the physical world。这意味着机器人可以自主解决复杂的物理课题,并灵活适应陌生的环境或指令 Paper page - Gemini Robotics: Bringing AI into the Physical World。
Google DeepMind 将其描述为“在物理世界中实现通用人工智能(AGI,人类水平的智能)的重要一步” Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world。也就是说,AI 不仅拥有了聪明的“大脑”,还能完美控制用于行动的“身体”。
轻松理解:机器人的“眼、口、手”合而为一
要理解 Gemini Robotics,需要了解 VLA 模型这个术语。VLA 是视觉(Vision)、语言(Language)和行动(Action)的首字母缩写 Gemini Robotics: Bringing AI into the physical world - YouTube。
我们可以用日常生活来打个比方。想象你在厨房做饭的场景:
- 视觉 (Vision):实时观察案板上的食材切到了什么程度,锅里的水是否溢出来。
- 语言 (Language):听到旁边帮忙的家人说“把火关小一点”并理解其含义。
- 行动 (Action):根据通过眼睛和耳朵获得的信息,动手调节煤气灶的火候并切菜。
以前,必须分别创建负责这三种功能的 AI 并将它们连接起来。担任眼睛角色的 AI 提供信息,担任嘴巴角色的 AI 进行解读,然后再向担任手部角色的 AI 下达指令。但 Gemini Robotics 基于谷歌最新的 AI Gemini 2.0,在一个巨大的“大脑”中同时处理所有这些过程 Gemini Robotics: Bringing AI into the Physical World - ADS。
因此,机器人能够实时响应用户的声音,并根据眼前状况的变化敏捷地改变手部动作,具备了“熟练的技巧(Dexterous)” Gemini Robotics: Bringing AI into the physical world - LinkedIn。特别是 Gemini Robotics-ER (Embodied Reasoning,具身推理) 模型赋予了机器人卓越的空间和时间理解能力 Gemini Robotics: Bringing AI into the Physical World - arXiv。机器人不再仅仅是看到物体,而是会预测未来并行动,例如“如果挪动这个杯子,后面的盘子可能会倒下” Google DeepMind introduces two Gemini-based models to bring AI to the real world。
现状:“思考型机器人”的出现与进化
在 2025 年的一年里,Google DeepMind 飞速发展了这项技术,不断突破机器人的极限。
- 2025年3月:基于 Gemini 2.0 的 Gemini Robotics 和 Gemini Robotics-ER 首次公开。机器人与人类自然互动并执行复杂指令的场景震惊了世界 Gemini Robotics brings AI into the physical world。
- 2025年6月:发布了 “设备端 (On-Device)” 模型,使机器人在没有互联网连接的情况下也能在现场直接判断和行动 Google rolls out new Gemini model that can run on robots locally。这使得机器人在对安全性要求极高的工厂,或者互联网信号无法触及的荒野环境中也能自主生存并完成任务。
- 2025年9月:功能更强大的 1.5 版本公开 Google DeepMind unveils its first “thinking” robotics AI。特别是 Gemini Robotics-ER 1.5 具备了真正的“思考(Thinking)”能力,在接到复杂指令时会自主制定策略。如果遇到未知信息,它甚至会直接调用 Google 搜索等外部工具来查找信息 Google DeepMind unveils its first “thinking” robotics AI。
打个比方,如果说以前的机器人只是勉强听命行事的“职场新人”,那么现在的机器人已经蜕变为能够自主搜索未知事物并解决问题的“资深专家” Gemini Robotics brings AI into the physical world - Digital India。
未来会怎样?
目前,Gemini Robotics-ER 1.5 正通过 Google AI Studio 提供给开发者,而 Gemini Robotics 1.5 则以部分合作伙伴为中心率先引入,并在实际工业现场进行测试 Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world。
这意味着在不久的将来,我们将在身边看到更多更聪明、更有能力的机器人。以前只能在工厂搬运固定物品的机器人,现在将成为帮助处理家务、管理复杂工艺的生产线、以及在危险灾难现场自主判断拯救生命的伙伴。曾经只是数字世界天才的 AI,现在正获得强壮的身体,大步向我们走来。机器人从我们的“工具”变为“伙伴”的未来,你准备好了吗?
AI 的视角
MindTickleBytes 的 AI 记者视角: AI 已经不仅仅是在国际象棋中获胜或画出精美画作,它现在已经准备好亲手拿起扫帚打扫房间或修理复杂的机器。Gemini Robotics 将成为开启真正智能体时代的钥匙,让人工智能不再停留在抽象的“数据”领域,而是延伸到实际物理世界的“行动”中。最令人鼓舞的是,机器人开始不仅仅将人类语言理解为文本,而是开始把握其中蕴含的意图和物理语境。
参考资料
- Gemini Robotics 1.5 brings AI agents into the physical world
- Gemini Robotics: Bringing AI into the Physical World (arXiv:2503.20020)
- Gemini Robotics: Bringing AI into the physical world - YouTube
- Google News - Google DeepMind launches Gemini Robotics - Overview
- Paper page - Gemini Robotics: Bringing AI into the Physical World
- Gemini Robotics: Bringing AI into the physical world - LinkedIn
-
[Gemini Robotics brings AI into the physical world… TechNews](https://news-tech.io/ko/news/gemini-robotics-brings-ai-into-the-physical-world) - Gemini Robotics brings AI into the physical world - Digital India
- Google DeepMind, Gemini 기반 VLA(Vision-Language-Action) 모델…
- Gemini Robotics brings AI into the physical world - Google DeepMind Blog
- Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world
- Gemini Robotics: Bringing AI into the Physical World - ADS
- Google DeepMind introduces two Gemini-based models to bring AI to the real world
- Google rolls out new Gemini model that can run on robots locally
- Google DeepMind unveils its first “thinking” robotics AI
- Gemini 1.0
- Gemini 1.5 Pro
- Gemini 2.0
- Gemini Robotics-ER
- Gemini Robotics On-Device
- Gemini Robotics 1.5
- 访问图书馆数据库
- 调用类似 Google 搜索的工具
- 向人类提问