一张照片变身活生生的游戏世界?谷歌新 AI 'Genie 2' 的故事

从一张照片中升起立体 3D 虚拟世界的神秘景象
AI Summary

谷歌 DeepMind 的 'Genie 2' 是一款突破性的 AI 模型,仅凭一张图像即可生成用户可直接探索和互动的 3D 虚拟世界。

一张照片变身活生生的游戏世界?谷歌新 AI ‘Genie 2’ 的故事

想象一下,你小时候画的一张稚嫩画作,或是旅途中拍摄的一张普通照片,突然变成了一个活生生的 3D 游戏世界,那会是怎样的体验?你可以走进那张照片,触摸树木,在小溪中游泳,或者跳上山丘。就像电影《勇敢者游戏》(Jumanji)一样,现实中的图像变成了一个立体的冒险空间,这种魔法般的事情现在已经近在咫尺。

这听起来像是童话故事,但得益于谷歌 DeepMind(Google DeepMind)最近发布的全新 AI 模型 ‘Genie 2’,这个想象离现实又近了一步。Genie 2:大规模基础世界模型 — Google DeepMind 那么,这个“智能灯神”究竟想为我们展现一个怎样的世界呢?

为什么这很重要?

到目前为止,AI 主要擅长写作(ChatGPT)或绘制精美的图画(Midjourney)。但 Genie 2 与众不同,它被称为 ‘世界模型(World Model)’简单来说,它是具备了能够理解并模拟(虚拟实验)周围环境的物理规律和相互作用能力的 AI 模型。Genie 2:大规模基础世界模型 — Google DeepMind

为什么这很重要?因为它不仅仅是展示一段漂亮的视频,更意味着当你在此中执行某种操作时,AI 可以预见结果并做出实时“反应”。

打个比方,如果说现有的 AI 是播放完整电影的放映机,那么 Genie 2 就像是一个巨大的戏剧舞台,观众可以随意改变剧本并在其中尽情玩耍。当角色跳入水中时,AI 会实时计算并描绘出水花四溅、受重力影响而下沉等物理反应。这种技术不仅带来了制作游戏的乐趣,还具有巨大的潜力,例如可以帮助现实世界的机器人在安全的虚拟世界中进行高度训练,而无需经历危险的事故,从而为整个产业带来巨变。Google DeepMind 首席执行官演示 Genie 2,世界生成器… - CBS News

轻松理解:Genie 2 是如何运作的?

如果用一句话来定义 Genie 2,那就是 ‘想象力丰富的超级游戏制作人’Genie 2:大规模基础世界模型 - simonwillison.net

通常制作游戏需要许多程序员编写复杂的代码,设计师熬夜画出立体模型。但 Genie 2 只要给定一张照片,就能瞬间将其中的平面空间重构为立体的 3D 场景。Genie 2:下一代 3D 世界基础模型

1. 预测行为结果的智能

Genie 2 会根据用户的输入(跳跃、游泳、行走等)自行判断虚拟世界应该如何变化。Genie 2:大规模基础世界模型 — Google DeepMind 这就像我们闭上眼睛想象“如果我在这里扔一块石头,那扇窗户就会碎掉吧?”一样。AI 并不是从教科书上学习物理规律(Physics),而是通过大量的经验自我习得。Genie 2:大规模基础世界模型 - deepmind.google

2. 通过视频自学世界

这个聪明的 AI 是如何获得这种能力的呢?答案是学习了海量的视频数据。Genie 2:大规模基础世界模型 — Google DeepMind 就像婴儿观察世界学习一样,Genie 2 通过观看无数视频,领悟了“人这样移动的话,背景就会这样改变”、“物体碰撞后会弹开”等因果关系。通过这个过程,Genie 2 能够极其生动地描述复杂的角色关节运动和自然的相互作用。Genie 2:大规模基础世界模型 - deepmind.google

3. 甚至能读懂其他角色的心?

更令人惊讶的是,Genie 2 甚至能预测虚拟世界中其他存在(智能体)的行为。Genie 2:大规模基础世界模型 - deepmind.google 不仅仅是背景在变,AI 还会计算并展示虚拟世界中的其他人物将如何对我的动作做出反应。这简直就像是在模拟一整个活生生的生态系统。

现状:从 2D 到 3D 的巨大跨越

事实上,Genie 2 有一位可靠的兄长,那就是在 2024 年初发布的 ‘Genie (Genie 1)’。Genie 1 是一个拥有约 110 亿参数(相当于 AI 脑细胞的权重信息)的模型,主要成功创建了平面 2D 游戏环境。[2402.15391] Genie:生成式交互环境

但这次登场的 Genie 2 实现了跨越,创造出了深度更深、沉浸感更强的 3D 虚拟世界。Genie 2:下一代 3D 世界基础模型 谷歌 DeepMind 方面对此自信地评价为 AI 技术在“通用性方面的重大跨越”。谷歌发布 Genie 2:大规模基础世界模型

这个雄心勃勃的项目在 Jack Parker-Holder 的领导下,由 Stephen Spencer 奠定了技术基础,是数十名天才研究员共同努力的结晶。Genie 2:大规模基础世界模型

未来将如何发展?

谷歌 DeepMind 的 CEO 德米斯·哈萨比斯(Demis Hassabis)在美国知名时事节目《60 分钟》(60 Minutes)中亲自演示了 Genie 2,引发了全世界的关注。Google DeepMind 首席执行官演示 Genie 2,世界生成器… - CBS News

哈萨比斯 CEO 明确表示,这项技术绝不仅限于娱乐工具。目前最受关注的领域是 ‘机器人的早期教育’Google DeepMind 首席执行官披露 Genie 2:AI 驱动的世界生成器…

在现实世界中训练真实机器人不仅面临损坏昂贵设备的风险,还始终伴随着事故隐患。但如果在 Genie 2 生成的“比现实更真实的虚拟世界”中训练机器人成千上万次,结果会怎样?机器人将在安全的尝试中学习,并变得更加精细和高效。此外,在教育和艺术创作领域,即时实现梦想中的世界并亲自探索的时代似乎也即将开启。Google DeepMind 首席执行官披露 Genie 2:AI 驱动的世界生成器…

AI 的视角 (MindTickleBytes AI 记者的一句话)

Genie 2 的出现暗示着 AI 不仅仅是“读写绘画的秘书”,更开始真正理解我们脚下“世界的运作原理”。这项能够随心所欲创造物理法则鲜活存在的虚拟空间的技术,不久后将打破现实与虚拟的界限,加速聪明机器人自然融入我们日常生活的“智能体时代”。从一张照片开始的冒险将如何改变我们的生活,真的非常值得期待,不是吗?


参考资料

  1. Genie 2: A large-scale foundation world model — Google DeepMind
  2. [2402.15391] Genie: Generative Interactive Environments
  3. Genie 2: The Next-Generation Foundation Model for 3D Worlds
  4. Genie 2: A large-scale foundation world model - simonwillison.net
  5. Genie 2: A Large-scale Foundation World Model
  6. Google announces Genie 2: A large-scale foundation world model
  7. Google DeepMind CEO demonstrates Genie 2, world … - CBS News
  8. Google DeepMind CEO Reveals Genie 2: AI-Powered World …
  9. Genie 2: A large-scale foundation world model - deepmind.google
测试你的理解
Q1. Genie 2 生成虚拟世界所需的最少输入值是什么?
  • 复杂的编程代码
  • 仅一张图像
  • 专业的 3D 图纸
Genie 2 仅凭一张图像提示词即可创建用户可操作的 3D 虚拟环境。
Q2. Genie 2 的前身模型 'Genie 1' 主要建模的是什么维度的世界?
  • 1D(线)
  • 2D(平面)
  • 3D(空间)
Genie 1 主要专注于生成各种 2D 世界,而 Genie 2 则成功实现了创建复杂的 3D 环境。
Q3. 谷歌 DeepMind 首席执行官德米斯·哈萨比斯提到 Genie 2 未来可以应用于哪些领域?
  • 股票市场预测
  • 开发烹饪食谱
  • 机器人的学习与训练
哈萨比斯 CEO 表示,Genie 2 生成的虚拟环境未来可用于训练机器人。