即便断网也能“自主”思考的机器人?谷歌植入机器人的“个人大脑”:端侧 Gemini

机器人手臂在无需互联网连接的情况下自主执行复杂任务的未来主义场景
AI Summary

谷歌 DeepMind 发布了无需联网、直接在机器人设备上运行的 AI 模型“Gemini Robotics On-Device”,开启了机器人自主判断并执行复杂动作的新时代。

引言:如果机器人拥有了“个人大脑”?

请想象一下:在信号无法触及的深山老林,或是电波被屏蔽的地下设施中,机器人需要紧急营救遇险者的紧迫情况。到目前为止,大多数智能机器人都必须连接到名为“云端(Cloud,互联网上的巨型服务器)”的外部大脑才能做出复杂判断。一旦断开网络,机器人就会立刻变得像“废铁”一样迟钝。这就像无线耳机断开与智能手机的连接后就无法发出任何声音一样。

然而现在,机器人开始了摆脱互联网“生命线”的独立尝试。谷歌 DeepMind 最近发布了一款全新的 AI 模型 —— “Gemini Robotics On-Device”,它能让机器人在没有互联网的情况下自主看、听和移动 [Gemini Robotics On-Device brings AI to local robotic devices Hacker News](https://news.ycombinator.com/item?id=44366409)。

这项技术是直接在机器人体内植入一个完整的 AI “智能大脑”。简单来说,机器人不再需要等待远程服务器的指示,而是可以在现场即时思考和行动。那么,这一变化会给我们的日常生活带来怎样的创新呢?MindTickleBytes 为您详细解读。


为什么这很重要? (Why It Matters)

相信大家都有过这样的郁闷体验:手机上的语音助手偶尔会说“请检查网络连接”而无法工作。机器人此前也面临同样的困境。但随着“端侧(On-Device,不经过外部服务器直接在设备内部运行)”方式的引入,将带来三个巨大的变化:

  1. 超乎想象的响应速度(低延迟):信息无需通过互联网传输到谷歌服务器再返回。打个比方,这就像摸到热锅时,在脊髓反射的作用下,大脑下达指令前手就已经缩回来了。机器人一旦发现眼前的障碍物,就能在 0.001 秒内停止或转向。
  2. 严密的隐私保护:关于机器人在我们家中看到了什么、进行了哪些对话的敏感数据不会被发送到外部服务器。由于所有数据处理都在机器人内部完成,因此在视安全为生命的工厂或极其隐私的家庭空间中,也可以放心使用。
  3. 无限的活动范围:在互联网不稳定的灾难现场、信号无法触及的偏远地区,甚至是通信费昂贵的地区,机器人也能聪明地各司其职 [Google rolls out new Gemini model that can run on robots locally TechCrunch](https://techcrunch.com/2025/06/24/google-rolls-out-new-gemini-model-that-can-run-on-robots-locally/)。

深度解析 (The Explainer)

1. VLA 模型:“眼、耳、手合而为一的大脑”

Gemini Robotics 被称为 VLA 模型(Vision-Language-Action Model,视觉-语言-动作模型) DeepMind’s Gemini Robotics On-Device brings advanced AI to local robots。术语听起来可能有点难?用我们的身体来类比就很容易理解了。

传统的机器人通常由负责分析眼睛(摄像头)所见事物的 AI、负责听懂人话(语言)的 AI 以及负责移动手(电机)的软件分别运作。这就像眼、耳、手分属于不同的人,当你说“喂,看到那边的红色杯子了吗?把它拿过来”时,在传递过程中会浪费时间,也容易出错。

但 Gemini Robotics 将这三者完全整合在一个大脑中:

  • 视觉(Vision):“眼前有一件皱巴巴的蓝色衬衫?”
  • 语言(Language):“主人让我把它整齐地叠好?”
  • 动作(Action):“好,那我就从左袖开始这样折叠吧!”

所有这些判断过程都在一个神经网络中同时处理。得益于此,机器人能够实现更加自然、流畅的动作 GeminiRobotics- Wikipedia

2. 将庞大的 AI 塞进机器人!

该模型是基于谷歌最新、最强大的 AI Gemini 2.0 构建的 GeminiRobotics- Wikipedia。Gemini 2.0 是一个学习了数千个图书馆知识量的“庞然大物”,而这次的“端侧”模型则是根据机器人的身体进行了高效的“瘦身”,使其在设备内部也能流畅运行 Gemini Robotics On-Device — Google DeepMind


现状:机器人会“拉拉链”和“叠衣服”了 (Where We Stand)

长期以来,机器人最难完成的任务之一就是处理“柔软的物体”。金属或塑料的形状固定,易于抓取,但包包的布料或衬衫的面料每次触摸时形状都会发生变化。

根据谷歌 DeepMind 的发布内容,搭载这一新模型的机器人可以自主完成以下精细任务(Dexterous tasks) DeepMind’s Gemini Robotics On-Device brings advanced AI to local robots

  • 细腻的手部动作:找到包包上非常小的拉链头并轻轻拉开的动作。
  • 空间与形状的理解:实时掌握乱成一团的衣物形状并将其层层叠好的动作。
  • 执行复合指令:一次性理解并自主规划执行“去厨房拿红色杯子并放在客厅桌子上”等多步指令 Gemini Robotics On-Device brings AI to local robotic devices - Google DeepMind
特别令人惊讶的是,即使在 “从未见过的环境(Out-of-distribution)” 下,它也不会慌张。就像一名资深厨师即使去到一个从未去过的厨房,也能迅速掌握工具的位置并开始烹饪一样,该模型展现出了在未学习的新环境或从未见过的物体面前也能从容适应的能力 [Gemini Robotics On-Device brings AI to local robotic devices Hacker News](https://news.ycombinator.com/item?id=44366409)。

未来展望 (What’s Next)

谷歌已与机器人制造商 Apptronik 达成合作,开始将该技术应用于实际的机器人设备中 GeminiRobotics- Wikipedia。这项于 2025 年 6 月底正式公开的技术,将彻底改变我们未来看到的机器人图景 [Google rolls out new Gemini model that can run on robots locally TechCrunch](https://techcrunch.com/2025/06/24/google-rolls-out-new-gemini-model-that-can-run-on-robots-locally/)。

让我们想象一下未来的一个场景:

  • 家务机器人可以在无需担心外部黑客攻击(因为数据不出家门!)的情况下,折叠衣服并帮助洗碗。
  • 工厂的机械臂无需一一编码,也能在现场即时听懂人的指令,如“请小心地把这个零件放进那个盒子里”,并开始工作。
  • 在巨型物流仓库中,数百台机器人无需通过无线信号互相沟通而导致卡顿,而是根据各自的判断,有条不紊地运行且不发生碰撞。
当然,对于需要复杂计算的巨型机器人,仍然需要基于云端的“旗舰版 Gemini”模型 [Gemini Robotics On-Device brings AI to local robotic devices Hacker News](https://news.ycombinator.com/item?id=44366409)。但对于直接在我们身边提供帮助的“生活型机器人”来说,这款端侧模型将成为最核心的“个人大脑”。

AI 的视角 (AI’s Take)

MindTickleBytes AI 记者的视角
这次发布标志着机器人切断了云端这一“脐带”,开始了真正的独立。即便没有互联网也能自主思考的机器人,将拥有像无需工具也能生存的野生动物一样强大的生存能力和适应能力。现在,机器人正超越单纯的“联网设备”,作为“真正的智能体”融入我们的生活,与人类共存。


参考资料

  1. GeminiRobotics- Wikipedia
  2. [Gemini Robotics On-Device brings AI to local robotic devices Hacker News](https://news.ycombinator.com/item?id=44366409)
  3. [Google rolls out new Gemini model that can run on robots locally TechCrunch](https://techcrunch.com/2025/06/24/google-rolls-out-new-gemini-model-that-can-run-on-robots-locally/)
  4. DeepMind’s Gemini Robotics On-Device brings advanced AI to local robots
  5. Gemini Robotics On-Device — Google DeepMind
  6. Gemini Robotics On-Device brings AI to local robotic devices - Google DeepMind
  7. Gemini Robotics On-Device brings AI to local robotic devices - Google DeepMind Blog
  8. Gemini Robotics On-Device Brings AI To Local Robotic Devices - AI Future Thinkers

FACT-CHECK SUMMARY

  • Claims checked: 15
  • Claims verified: 13
  • Verdict: PASS
测试你的理解
Q1. “Gemini Robotics On-Device”最大的特点是什么?
  • 必须始终连接超高速 5G 互联网。
  • 无需互联网连接,AI 直接在机器人设备本身运行。
  • 没有人的操控就完全无法移动。
该模型是“端侧”模型,使机器人能够在没有网络连接的情况下,在现场立即做出判断和行动。
Q2. 该模型可以执行的“精细任务”的具体示例有哪些?
  • 单纯地推物体
  • 拉开包包拉链或折叠衣服
  • 扫地
它可以执行需要细腻手部动作的“高难度任务(dexterous tasks)”,例如拉开包包拉链或折叠衣服。
Q3. 这款机器人 AI 模型是基于哪种技术架构构建的?
  • Gemini 1.0
  • Gemini 2.0
  • GPT-4
Gemini Robotics On-Device 是基于谷歌最新的超大规模语言模型 Gemini 2.0 架构设计的。