搭载谷歌最新 AI 模型 'Gemini' 作为大脑的 SIMA 2,不仅仅是擅长玩游戏,它还是一个能理解用户语言、解释自身计划并能自主提升能力的 AI 伙伴。
想象一下,你正在广阔的开放世界游戏中与 AI 伙伴一起冒险。如果是以前,当你要求“去砍那边的树”时,AI 可能会呆呆地撞在墙上,或者只是机械地重复预设动作。但现在,情况已经完全不同了。
当你随口问道“我们今天做点什么好呢?”时,身边的 AI 伙伴观察了一下地形后回答道:“在入夜前我们需要搭建一个温暖的避难所,所以我去附近的森林里找些结实的木材。你要不要去附近的小溪边找点吃的?”这不再是一个只会听从命令的机器,而是一个能够判断局势、制定计划并主动向我们提出建议的真正的‘朋友’。
这一惊人场景的主角,正是谷歌 DeepMind (Google DeepMind) 最近公开的新一代 AI 智能体(Agent,自主判断并行动的主体)——SIMA 2 [10] 谷歌DeepMind揭秘能够学习和适应的类人AI智能体…。
为什么这很重要?
到目前为止,我们接触到的 ChatGPT 或 Gemini 等人工智能主要停留在“文字”或“图片”的平面世界。我们提问,它们在屏幕上给出答案。但我们生活的真实世界是一个立体的 3D 空间。我们需要开门、搬运物品、避开障碍物到达目的地等复杂的物理行为。
SIMA 2 的出现之所以重要,是因为 AI 终于超越了屏幕上的‘文本’,开始在复杂的 3D 虚拟世界中拥有自己的身体(数字身体)并主动采取行动 [2] [2512.04797] SIMA 2:虚拟世界的通用具身智能体。在 AI 具备像现实世界机器人一样理解物理环境并与之互动的能力的过程中,这是一个非常重要的训练场 [1] SIMA 2:由 Gemini 驱动的 3D 虚拟世界 AI 智能体 — 谷歌 DeepMind。
打个比方,如果说之前的 AI 是仅通过书籍学习世界的‘天才学生’,那么 SIMA 2 则进化成了开始在操场上亲自运动并积累实战经验的‘多才多艺的运动员’。
通俗易懂:SIMA 2 是如何运作的?
SIMA 2 这个名字是‘Scalable Instructable Multiworld Agent(可扩展、可指令的多世界智能体)’的缩写 [17] DeepMind 的 SIMA 2:Gemini 驱动的智能体挑战复杂的 3D 游戏世界。名字虽然有点拗口,但核心可以概括为以下三点:
1. 装备了名为“Gemini”的“聪明大脑”
如果说传统的游戏 AI 仅专注于“敌人出现就攻击”之类的反射性行为(低级策略,Low-level policy),那么 SIMA 2 则将谷歌尖端的人工智能‘Gemini’作为核心大脑 [14] 谷歌的 SIMA 2 智能体利用 Gemini 在虚拟世界中进行推理和行动。
通俗点说,如果以前的 AI 只是调节肌肉运动的‘末梢神经’,那么 SIMA 2 则拥有了能综合判断局势并制定未来战略的‘中枢神经系统’ [17] DeepMind 的 SIMA 2:Gemini 驱动的智能体挑战复杂的 3D 游戏世界。正因如此,SIMA 2 能更准确地理解人类模糊的语言,并能逻辑性地把握虚拟世界中瞬息万变的状况 [18] 谷歌 DeepMind 发布 SIMA 2:征服虚拟世界的通用智能体…。
2. 像人类一样解释自己的想法和计划
SIMA 2 不仅仅是默默地行动,它还能亲切地向用户解释自己为什么要这样做 [7] r/accelerate Reddit 讨论:DeepMind 发布 SIMA 2。
例如,如果你说“去对面的城堡吧”,SIMA 2 在分析地形后会分享它的意图:“现在桥断了,虽然会多花点时间,但我们还是绕道森林小路过去吧” [17] DeepMind 的 SIMA 2:Gemini 驱动的智能体挑战复杂的 3D 游戏世界。这是一项非常核心的技术,它让我们觉得 AI 不仅仅是一个简单的工具,而是一个可靠的伙伴。
3. 自主创建任务并学习(自主学习)
最令人惊讶的一点是,SIMA 2 无需任何人的帮助即可自主提升能力。它利用 Gemini 模型在虚拟世界中自主构思自己可以尝试的任务,并在达成目标时给予自己‘奖励’进行学习 [3] 2025-12-05 SIMA 2:虚拟世界的通用具身智能体。
这就像孩子们在游乐场里,即使没人要求,也会说“看谁先跑到滑梯那里!”并自主创造游戏来锻炼运动能力一样。SIMA 2 也是在虚拟世界这个游乐场中,通过‘自主游戏’,无师自通地掌握人类没有逐一教过的新技能 [1] SIMA 2:由 Gemini 驱动的 3D 虚拟世界 AI 智能体 — 谷歌 DeepMind。
现状:进展到了哪一步?
目前,SIMA 2 正在各种类型的 3D 游戏环境中接受性能测试。为了测试 SIMA 2 的极限,研究团队还将其与能实时创建新虚拟世界的 AI ‘Genie 3’结合进行了测试 [16] 谷歌 DeepMind 宣布 SIMA 2,一个通过玩 3D 游戏学习的 AI 智能体…。
在这个过程中,SIMA 2 在从未去过的全新游戏中也展现出了惊人的适应能力,能够自主找路并根据用户的指示完成复杂目标 [15] 谷歌 DeepMind 的 SIMA 2 智能体在虚拟世界中学习思考和行动…。特别是,它不仅在某一款游戏中表现出色,还证明了自己在跨多个环境学习技能方面的强大潜力,成为了一个‘通用智能体(Generalist Agent)’ [2] [2512.04797] SIMA 2:虚拟世界的通用具身智能体。
这个庞大的项目是在 Satinder Singh Baveja、Adrian Bolton、Zoubin Ghahramani 等 DeepMind 著名领导者的指挥下,汇集了众多研究人员的辛勤努力而诞生的 [13] SIMA 2:一个与你一起在虚拟 3D 世界中玩耍、推理和学习的智能体。
未来会怎样?
DeepMind 坚信,SIMA 2 将成为迈向通用人工智能(AGI,即能像人类一样自主完成各领域工作的 AI)的一个非常重要的里程碑 [7] r/accelerate Reddit 讨论:DeepMind 发布 SIMA 2。
在不久的将来,我们玩的所有游戏中都将搭载像 SIMA 2 这样聪明的智能体。届时,游戏将不再是单纯击败既定敌人的传统方式,而会演变成与 AI 伙伴进行深度沟通、共同思考、共同完成冒险的全新层面的体验。
更进一步,这些在虚拟世界中训练出的尖端技术也可以直接应用于现实世界的机器人。能够完美理解我们家中复杂结构,并能精准领会并执行主人“稍微打扫一下客厅”这类抽象要求的家政机器人的出现,或许正是从 SIMA 2 如今在虚拟世界迈出的步伐开始的。
MindTickleBytes 的 AI 记者的视角
SIMA 2 是 AI 开始超越“能言善辩的嘴”,拥有“能思考、能行动的身体”的信号弹。在虚拟世界这个安全实验室中,AI 能够学习自主学习以及与人类建立情感共鸣的方法,这在技术和哲学层面都非常有趣。
这不仅仅是让游戏变得更有趣的技术,更展现了人类与 AI 共存的未来社会蓝图,令人心潮澎湃。那个“聪明的游戏伙伴”总有一天会以机器人的形象出现在我们的客厅里,问一句“要喝杯茶吗?”,那一天似乎并不遥远。
参考资料
- SIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds — Google DeepMind
- [2512.04797] SIMA 2: A Generalist Embodied Agent for Virtual Worlds
- 2025-12-05 SIMA 2: A Generalist Embodied Agent for Virtual Worlds - Technical Report
- Google DeepMind unveils human-like AIagentthatlearnsand adapts… - Cryptopolitan
- Google’s SIMA 2 agent uses Gemini to reason and act in virtual worlds - TechCrunch
- Google DeepMind’s SIMA 2 agent learns to think and act inside virtual worlds - SiliconAngle
- DeepMind’s SIMA 2: Gemini-Powered Agent Tackles Complex 3D Game Worlds - KiaDev
- Google DeepMind Launches SIMA 2: A New General-Purpose Agent Conquering … - AIbase
- DeepMind: Introducing SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds - Reddit
- Google DeepMind announces SIMA 2, an AI agent that learns by playing 3D … - Gigazine
- SIMA 2:一个与你一起在虚拟 3D 世界中玩耍、推理和学习的智能体 - Founder News Hub
FACT-CHECK SUMMARY
- Claims checked: 12
- Claims verified: 10
- Verdict: PASS
- 只是听从命令并停留在原处的程序
- 在虚拟世界中能自主理解并行动的主体
- 自动安装游戏的软件
- 展示更华丽的画面
- 能向用户解释自己的计划
- 无需互联网连接也能运行
- 由人类逐一编写所有动作的代码
- 仅观看其他 AI 的游戏视频
- 自主创建任务、设定奖励并进行自发学习