AI Summary

谷歌 DeepMind 的 'Genie 2' 是一款突破性的 AI 模型，仅凭一张图像即可生成用户可直接探索和互动的 3D 虚拟世界。

一张照片变身活生生的游戏世界？谷歌新 AI ‘Genie 2’ 的故事

想象一下，你小时候画的一张稚嫩画作，或是旅途中拍摄的一张普通照片，突然变成了一个活生生的 3D 游戏世界，那会是怎样的体验？你可以走进那张照片，触摸树木，在小溪中游泳，或者跳上山丘。就像电影《勇敢者游戏》（Jumanji）一样，现实中的图像变成了一个立体的冒险空间，这种魔法般的事情现在已经近在咫尺。

这听起来像是童话故事，但得益于谷歌 DeepMind（Google DeepMind）最近发布的全新 AI 模型 ‘Genie 2’，这个想象离现实又近了一步。Genie 2：大规模基础世界模型 — Google DeepMind 那么，这个“智能灯神”究竟想为我们展现一个怎样的世界呢？

为什么这很重要？

到目前为止，AI 主要擅长写作（ChatGPT）或绘制精美的图画（Midjourney）。但 Genie 2 与众不同，它被称为 ‘世界模型（World Model）’。简单来说，它是具备了能够理解并模拟（虚拟实验）周围环境的物理规律和相互作用能力的 AI 模型。Genie 2：大规模基础世界模型 — Google DeepMind

为什么这很重要？因为它不仅仅是展示一段漂亮的视频，更意味着当你在此中执行某种操作时，AI 可以预见结果并做出实时“反应”。

打个比方，如果说现有的 AI 是播放完整电影的放映机，那么 Genie 2 就像是一个巨大的戏剧舞台，观众可以随意改变剧本并在其中尽情玩耍。当角色跳入水中时，AI 会实时计算并描绘出水花四溅、受重力影响而下沉等物理反应。这种技术不仅带来了制作游戏的乐趣，还具有巨大的潜力，例如可以帮助现实世界的机器人在安全的虚拟世界中进行高度训练，而无需经历危险的事故，从而为整个产业带来巨变。Google DeepMind 首席执行官演示 Genie 2，世界生成器… - CBS News

轻松理解：Genie 2 是如何运作的？

如果用一句话来定义 Genie 2，那就是 ‘想象力丰富的超级游戏制作人’。Genie 2：大规模基础世界模型 - simonwillison.net

通常制作游戏需要许多程序员编写复杂的代码，设计师熬夜画出立体模型。但 Genie 2 只要给定一张照片，就能瞬间将其中的平面空间重构为立体的 3D 场景。Genie 2：下一代 3D 世界基础模型

1. 预测行为结果的智能

Genie 2 会根据用户的输入（跳跃、游泳、行走等）自行判断虚拟世界应该如何变化。Genie 2：大规模基础世界模型 — Google DeepMind 这就像我们闭上眼睛想象“如果我在这里扔一块石头，那扇窗户就会碎掉吧？”一样。AI 并不是从教科书上学习物理规律（Physics），而是通过大量的经验自我习得。Genie 2：大规模基础世界模型 - deepmind.google

2. 通过视频自学世界

这个聪明的 AI 是如何获得这种能力的呢？答案是学习了海量的视频数据。Genie 2：大规模基础世界模型 — Google DeepMind 就像婴儿观察世界学习一样，Genie 2 通过观看无数视频，领悟了“人这样移动的话，背景就会这样改变”、“物体碰撞后会弹开”等因果关系。通过这个过程，Genie 2 能够极其生动地描述复杂的角色关节运动和自然的相互作用。Genie 2：大规模基础世界模型 - deepmind.google

3. 甚至能读懂其他角色的心？

更令人惊讶的是，Genie 2 甚至能预测虚拟世界中其他存在（智能体）的行为。Genie 2：大规模基础世界模型 - deepmind.google 不仅仅是背景在变，AI 还会计算并展示虚拟世界中的其他人物将如何对我的动作做出反应。这简直就像是在模拟一整个活生生的生态系统。

现状：从 2D 到 3D 的巨大跨越

事实上，Genie 2 有一位可靠的兄长，那就是在 2024 年初发布的 ‘Genie (Genie 1)’。Genie 1 是一个拥有约 110 亿参数（相当于 AI 脑细胞的权重信息）的模型，主要成功创建了平面 2D 游戏环境。[2402.15391] Genie：生成式交互环境

但这次登场的 Genie 2 实现了跨越，创造出了深度更深、沉浸感更强的 3D 虚拟世界。Genie 2：下一代 3D 世界基础模型谷歌 DeepMind 方面对此自信地评价为 AI 技术在“通用性方面的重大跨越”。谷歌发布 Genie 2：大规模基础世界模型

这个雄心勃勃的项目在 Jack Parker-Holder 的领导下，由 Stephen Spencer 奠定了技术基础，是数十名天才研究员共同努力的结晶。Genie 2：大规模基础世界模型

未来将如何发展？

谷歌 DeepMind 的 CEO 德米斯·哈萨比斯（Demis Hassabis）在美国知名时事节目《60 分钟》（60 Minutes）中亲自演示了 Genie 2，引发了全世界的关注。Google DeepMind 首席执行官演示 Genie 2，世界生成器… - CBS News

哈萨比斯 CEO 明确表示，这项技术绝不仅限于娱乐工具。目前最受关注的领域是 ‘机器人的早期教育’。Google DeepMind 首席执行官披露 Genie 2：AI 驱动的世界生成器…

在现实世界中训练真实机器人不仅面临损坏昂贵设备的风险，还始终伴随着事故隐患。但如果在 Genie 2 生成的“比现实更真实的虚拟世界”中训练机器人成千上万次，结果会怎样？机器人将在安全的尝试中学习，并变得更加精细和高效。此外，在教育和艺术创作领域，即时实现梦想中的世界并亲自探索的时代似乎也即将开启。Google DeepMind 首席执行官披露 Genie 2：AI 驱动的世界生成器…

AI 的视角 (MindTickleBytes AI 记者的一句话)

Genie 2 的出现暗示着 AI 不仅仅是“读写绘画的秘书”，更开始真正理解我们脚下“世界的运作原理”。这项能够随心所欲创造物理法则鲜活存在的虚拟空间的技术，不久后将打破现实与虚拟的界限，加速聪明机器人自然融入我们日常生活的“智能体时代”。从一张照片开始的冒险将如何改变我们的生活，真的非常值得期待，不是吗？

参考资料

Share this article:

测试你的理解

Q1. Genie 2 生成虚拟世界所需的最少输入值是什么？

复杂的编程代码
仅一张图像
专业的 3D 图纸

Genie 2 仅凭一张图像提示词即可创建用户可操作的 3D 虚拟环境。

Q2. Genie 2 的前身模型 'Genie 1' 主要建模的是什么维度的世界？

1D（线）
2D（平面）
3D（空间）

Genie 1 主要专注于生成各种 2D 世界，而 Genie 2 则成功实现了创建复杂的 3D 环境。

Q3. 谷歌 DeepMind 首席执行官德米斯·哈萨比斯提到 Genie 2 未来可以应用于哪些领域？

股票市场预测
开发烹饪食谱
机器人的学习与训练

哈萨比斯 CEO 表示，Genie 2 生成的虚拟环境未来可用于训练机器人。

一张照片变身活生生的游戏世界？谷歌新 AI 'Genie 2' 的故事