一张照片变游戏世界?Google DeepMind 'Genie 2' 创造的魔幻未来

一张照片演变成立体的 3D 虚拟空间,用户仿佛在其中探索的抽象图形图像
AI Summary

Google DeepMind 的 'Genie 2' 是一个大规模基础世界模型,它能基于一张图像生成无限的 3D 虚拟环境,供用户直接控制和探索。

请想象一下:你向 AI 展示了一张昨天和家人旅行时在山顶拍摄的风景照,并说“我想进入这张照片”。瞬间,平面的照片变成了具有深度的 3D 空间。你可以使用键盘和鼠标亲自走在那条山路上,在附近的湖泊中游泳,甚至向水面扔一块石头,生动地观察激起的波纹。

这不再是科幻电影中的想象。这是 Google DeepMind 最新公开的新一代 AI 模型 ‘Genie 2’ 正在实现的场景。Genie 2: A large-scale foundation world model — Google DeepMind

为什么这如此重要?

我们至今为止所享受的游戏或虚拟现实(VR),是无数开发者没日没夜编写代码、一个一个雕琢复杂的 3D 模型所付出的巨大努力的成果。但 Genie 2 的方法完全不同。这个 AI 不需要预设程序,就像人类做梦一样,它能自主即时地描绘出世界。Genie 2: A large-scale foundation world model - simonwillison.net

Genie 2 的重要性不仅在于它能迅速做出“有趣的游戏”,更在于它是一个强有力的证据,证明 AI 正在自主学习 “现实世界是如何运作的”。Google DeepMind 首席执行官 Demis Hassabis 强调,这项技术在不久的将来将成为训练智能机器人的核心工具。Google DeepMind CEO demonstrates Genie 2, world … - CBS News

打个比方:如果直接将真实的机器人投入复杂危险的工厂,发生事故的风险很高。但如果让它在 Genie 2 创造的精细虚拟工厂中进行数万次预演,然后再送往实际环境,结果会怎样?我们将能够更快地制造出更安全、更聪明的机器人。Google Genie 2, an AI model to create playable 3D environments

轻松理解:什么是“世界模型”?

要理解 Genie 2,必须知道的核心术语就是 “基础世界模型 (Foundation World Model)”。这里的“世界模型”简单来说,就是 搭载在 AI 脑海中的虚拟物理定律词典Genie 2, Google DeepMind가 개발한 대규모 기반 세계 모델

就像我们知道把球向上扔会因为重力而落下、在水中会因为阻力而动作变慢一样,Genie 2 也拥有关于世界运转规则的“常识”。

这个聪明的 AI 通过观看互联网上的海量视频,自主领悟了世界的运动规律。因此,当我们发出“跳跃”或“游泳”的指令时,它能准确计算并展示该动作在虚拟世界中与重力或水阻力结合后的样子。Genie 2: A large-scale foundation world model — Google DeepMind

Genie 2 的惊人能力

Genie 2 不仅仅是一个播放固定视频的播放器,它提供了一个能实时响应用户操作并发生变化的“活生生的环境”。

  1. 仅凭一张照片创造世界:只需一张手机拍摄的风景照、上网时发现的精美图片,甚至是随手画在纸上的一张草图就足够了。Genie 2 以这张图像为种子,即时绽放出一个供我们亲自探索的 3D 空间。DeepMind’s Genie 2 generates playable 3D worlds from single …
  2. 随心所欲控制的乐趣:在生成的虚拟世界中,用户可以使用键盘和鼠标自由移动角色。角色与物体碰撞或进行复杂动作时的表现非常自然,仿佛应用了真实的物理定律。Genie 2, Google DeepMind가 개발한 대규모 기반 세계 모델
  3. 自主领悟物理定律:没有人教过 Genie 2“物体应该这样碰撞”等具体规则。相反,它通过学习海量数据,展现出了自主掌握物体间相互作用和物理定律的“涌现能力”。Genie 2: A large-scale foundation world model — Google DeepMind
  4. 保持空间一致性:如果在虚拟世界行走时回头发现刚才看到的树消失了,沉浸感会大打折扣。Genie 2 在探索过程中能保持空间一致性,允许用户在长达 1 分钟的时间内无矛盾地自由探索虚拟世界。DeepMind’s Genie 2 generates playable 3D worlds from single …

现状与挑战

尽管 Genie 2 是一项革命性的技术,但要像家用游戏机一样每天在家里享受,还面临一些限制。

我们将面对怎样的未来?

像 Genie 2 这样的“基础世界模型”将成为未来人工智能的核心支柱。如果说至今为止的 AI 仅限于写文字或画图,那么现在 直接行动并理解世界的 AI 时代正在开启。Genie 2: How Google DeepMind’s AI is Creating Infinite …

在不久的将来,我们或许都能在 1 秒钟内创造出自己独特的虚拟世界,并将其中的快乐想象变为现实,与 AI 朋友一起踏上冒险之旅。此外,在 Genie 2 这一安全练习场接受训练的机器人,在我们客厅里帮忙打扫、一起做饭的日子似乎也不远了。Google DeepMind CEO demonstrates Genie 2, world … - CBS News

AI 的视角 (MindTickleBytes AI 记者的视角)

Genie 2 象征着 AI 不再仅仅是处理数据的工具,而是在成长为拥有独立世界观和理解物理定律的存在。无需一行代码,仅凭一张照片就能实现的无限世界,预示着人类想象力将摆脱技术限制而尽情施展的未来。我们凝视的一张照片,现在已然成为了新冒险的起点。

参考资料

  1. Genie (world model) - Wikipedia
  2. Genie 2: A large-scale foundation world model — Google DeepMind
  3. [2402.15391] Genie: Generative Interactive Environments
  4. GitHub - lucidrains/genie2-pytorch: Implementation of a framework for …
  5. Genie 2: A large-scale foundation world model - simonwillison.net
  6. Genie 2: The Next-Generation Foundation Model for 3D Worlds
  7. Genie 2, Google DeepMind가 개발한 대규모 기반 세계 모델
  8. Genie 2: How Google DeepMind’s AI is Creating Infinite …
  9. DeepMind’s Genie 2 generates playable 3D worlds from single …
  10. Google DeepMind CEO demonstrates Genie 2, world … - CBS News
  11. Google Genie 2, an AI model to create playable 3D environments

FACT-CHECK SUMMARY

  • Claims checked: 16
  • Claims verified: 16
  • Verdict: PASS
测试你的理解
Q1. 在 Genie 2 生成的虚拟环境中,用户可以进行什么操作?
  • 只能单纯观看
  • 可以用键盘和鼠标进行跳跃、游泳等操作
  • 只能保存为图像文件
Genie 2 是一个‘动作可控’(Action-controllable)的模型,用户可以通过键盘和鼠标输入来控制角色并进行交互。
Q2. Genie 2 创造虚拟世界所需的最少信息是什么?
  • 数千行编程代码
  • 一张提示图像
  • 专业的 3D 建模文件
Genie 2 可以从文本、照片,甚至是简单的草图或一张提示图像中生成 3D 虚拟环境。
Q3. Google DeepMind 将 Genie 2 这样的模型称为什么?
  • 基础世界模型 (Foundation World Model)
  • 简单图像生成器
  • 视频编辑工具
Google DeepMind 将 Genie 2 称为‘基础世界模型’(Foundation World Model),它能够模拟虚拟环境并预测行动结果。