成为游戏玩伴的AI?从简单的跑腿者进化为“共同思考的伙伴”的SIMA 2

在3D虚拟游戏环境中,智能AI智能体与角色一起制定战略并进行协作的场景
AI Summary

Google DeepMind的新型AI智能体SIMA 2搭载了Gemini技术,展现了在3D虚拟世界中自主制定计划、与人类协作并不断成长的能力。

想象一下,你正在玩一款地形险峻、复杂的3D生存游戏。你身边有一位AI队友。到目前为止,我们在游戏中遇到的AI,当你命令它们“去弄点木头”时,它们大多只是机械地走向固定位置,或者撞在墙上不知所措,充其量只是个“简单的跑腿者”。

但现在,即将出现在你身边的这位新朋友完全不同。它会观察周围的情况,然后对你说:“你正在盖房子吗?看来还需要更多木头。我去北边的森林砍点木头回来,你先做基础工程。如果看到熊出没,我会通过无线电通知你!”这种甚至能自主规划未被指派的任务并与你交流的场景,已不再是科幻电影中的桥段。

这就是Google DeepMind最近公开的次世代AI智能体——SIMA 2所开启的新现实 SIMA 2 与通用机器人技术 #61

为什么这很重要?

我们已经非常习惯与ChatGPT或Gemini这类AI进行对话。但是,仅存在于屏幕文字中的AI,与能够在我们所见的虚拟或现实3D空间中直接执行任务的AI,是完全不同的概念。

AI理解与我们相同的世界(3D空间),并在其中为了达成特定目标而采取物理行动,这被称为具身智能(Embodied AI)。SIMA 2正是在这一领域取得了巨大的进展。它不仅仅是“能说会道”,更拥有了能够实时判断复杂局势并转化为恰当行动的“执行大脑” SIMA 2:虚拟世界的通用具身智能体

打个比方,这就像一位背熟了图书馆所有书籍的学者,终于走出了书斋,亲手拿起工具开始盖房子。随着这项技术的成熟,它不仅能成为游戏中可靠的伙伴,未来还可能成为帮我们处理家务,或在复杂工厂中与人类协作的智能机器人的核心大脑 SIMA 2 与通用机器人技术 #61

轻松理解:SIMA 2 的真面目

SIMA 是 “Scalable Instructable Multiworld Agent(可扩展、可指导的多世界智能体)” 的首字母缩写 [Google DeepMind 的 SIMA 2:迈向通用的一步… LinkedIn](https://www.linkedin.com/posts/islamtalha_sima-2-a-gemini-powered-ai-agent-for-3d-activity-7394859432595255296-9gXG)。简单来说,它意味着“一个能在多种虚拟世界中接受人类指导并出色完成任务的多才多艺的AI”。这次公开的SIMA 2是比第一代模型更加聪明的第二代版本 DeepMind 的 SIMA 2:搭载 Gemini 的智能体应对复杂的 3D 游戏世界

1. Gemini 强力引擎

SIMA 2 最大的变化是搭载了 Google 最尖端的 AI 模型 Gemini 作为大脑 Google DeepMind 周四分享了 SIMA 2 的研究预览…。如果说前代 SIMA 1 只是简单地模仿指令动作,那么 SIMA 2 则利用了 Gemini 强大的推理(Reasoning,逻辑思考并得出结论的能力)。得益于此,它能够分析周边状况并自主做出最佳判断 DeepMind 的 SIMA 2:搭载 Gemini 的智能体应对复杂的 3D 游戏世界

我们可以用更简单的比喻:

  • SIMA 1:只能根据按键移动的“遥控玩具”
  • SIMA 2:能自主制定战术并征求队友意见的“资深游戏搭档”

2. 拥有与人类相同的眼睛和双手

令人惊讶的是,SIMA 2 完全不使用任何查看游戏内部数据的“作弊码”。相反,它像我们人类一样,通过直接识别屏幕上显示的 像素(Pixel) 信息来把握状况 SIMA 2 与通用机器人技术 #61。操作方式也完全沿用了我们使用的普通 键盘和鼠标 输入方式 SIMA 2 与通用机器人技术 #61

这表明 SIMA 2 并非专为某款特定游戏开发的专用 AI。就像老练的游戏玩家能迅速适应新游戏一样,它意味着 SIMA 2 具备了“通用学习能力”,无论被置于何种新环境,都能通过观察像素和敲击键盘快速适应 DeepMind 的 SIMA 2:搭载 Gemini 的智能体应对复杂的 3D 游戏世界

现状:它能做到什么程度?

SIMA 2 目前已在众多的 3D 游戏环境中证明了其惊人的性能。

未来会怎样?

Google DeepMind 认为 SIMA 2 是一个非常接近人类智能特征的重大技术突破 [Google 揭晓 SIMA 2:接近人类的 AI 突破 OSH](https://www.ostreamhub.com/video/google-just-dropped-a-world-aware-ai-agent-shockingly-close-to-real-intelligence-uwvkwvvmyko)。现在,AI 已经走出了静态文本的世界,开始理解我们所生存的动态、立体的 3D 环境。并且,它正在蜕变为一个能与人类并肩作战、共同活动的伙伴 SIMA 2:一个玩耍、推理和学习的智能体… - aiobserver.co

在不久的将来,如果你在你喜爱的游戏中遇到一位“心领神会的智能队友”,那么其内核很可能正跳动着类似 SIMA 2 的技术。更进一步,这项技术将打破虚拟的围墙,进化为能够整理客厅或在危险工业现场协助复杂作业的实体机器人的“思考大脑” SIMA 2 与通用机器人技术 #61


AI 的视角 (AI’s Take)

“SIMA 2 展示了 AI 作为‘协作者’而非单纯工具的可能性,它将成为未来机器人技术和虚拟协作的标准。现在,与 AI 一起玩游戏可能不仅仅是单纯的娱乐,更将成为人类与人工智能和谐共存、学习如何共同达成目标的新型社交练习场。” —— MindTickleBytes AI 记者

参考资料

  1. SIMA 2:虚拟 3D 世界中搭载 Gemini 的 AI 智能体
  2. [Google DeepMind 的 SIMA 2:迈向通用的一步… LinkedIn](https://www.linkedin.com/posts/islamtalha_sima-2-a-gemini-powered-ai-agent-for-3d-activity-7394859432595255296-9gXG)
  3. [AI 每日资讯:DeepMind SIMA 2 抵达,OpenAI… Communeify](https://www.communeify.com/en/blog/ai-daily-deepmind-sima2-openai-gpt5-1-api-gemini-live-update/)
  4. 为什么李飞飞、Yann LeCun 和 DeepMind 都押注于“世界…”
  5. Google DeepMind 揭晓了能够学习和适应的类人 AI 智能体…
  6. SIMA 2:一个玩耍、推理和学习的智能体… - aiobserver.co
  7. [Google 揭晓 SIMA 2:接近人类的 AI 突破 OSH](https://www.ostreamhub.com/video/google-just-dropped-a-world-aware-ai-agent-shockingly-close-to-real-intelligence-uwvkwvvmyko)
  8. SIMA 2:虚拟世界的通用具身智能体
  9. Google 的 SIMA 2 智能体使用 Gemini 在虚拟世界中进行推理和行动
  10. Google DeepMind 宣布 SIMA 2,一个通过玩 3D 游戏学习的 AI 智能体…
  11. DeepMind 的 SIMA 2:搭载 Gemini 的智能体应对复杂的 3D 游戏世界
  12. SIMA 2 与通用机器人技术 #61

FACT-CHECK SUMMARY

  • Claims checked: 18
  • Claims verified: 18
  • Verdict: PASS
测试你的理解
Q1. SIMA 2最显著的特征之一,即区别于前代模型的能力是什么?
  • 仅重复执行简单的语言命令
  • 能够进行内部规划并向用户解释其意图
  • 通过直接读取游戏源代码来移动
SIMA 2超越了简单的命令执行,具备了能够自主制定计划并向用户解释其意图的“推理”能力。
Q2. SIMA 2在观察和操作虚拟世界时采用的方式是什么?
  • 与游戏服务器进行直接数据通信
  • 基于像素的屏幕识别和键盘/鼠标输入
  • 分析用户的脑电波
SIMA 2像人类一样识别屏幕像素,并使用标准键盘和鼠标与虚拟环境进行交互。
Q3. 负责SIMA 2智能的核心引擎(大脑)是什么?
  • Genie 3
  • GPT-5.1
  • Gemini模型
SIMA 2基于Google尖端的AI模型Gemini构建,发挥了强大的语言和推理能力。