Google DeepMind 的 'Genie 2' 是一个大规模基础世界模型,它能基于一张图像生成无限的 3D 虚拟环境,供用户直接控制和探索。
请想象一下:你向 AI 展示了一张昨天和家人旅行时在山顶拍摄的风景照,并说“我想进入这张照片”。瞬间,平面的照片变成了具有深度的 3D 空间。你可以使用键盘和鼠标亲自走在那条山路上,在附近的湖泊中游泳,甚至向水面扔一块石头,生动地观察激起的波纹。
这不再是科幻电影中的想象。这是 Google DeepMind 最新公开的新一代 AI 模型 ‘Genie 2’ 正在实现的场景。Genie 2: A large-scale foundation world model — Google DeepMind
为什么这如此重要?
我们至今为止所享受的游戏或虚拟现实(VR),是无数开发者没日没夜编写代码、一个一个雕琢复杂的 3D 模型所付出的巨大努力的成果。但 Genie 2 的方法完全不同。这个 AI 不需要预设程序,就像人类做梦一样,它能自主即时地描绘出世界。Genie 2: A large-scale foundation world model - simonwillison.net
Genie 2 的重要性不仅在于它能迅速做出“有趣的游戏”,更在于它是一个强有力的证据,证明 AI 正在自主学习 “现实世界是如何运作的”。Google DeepMind 首席执行官 Demis Hassabis 强调,这项技术在不久的将来将成为训练智能机器人的核心工具。Google DeepMind CEO demonstrates Genie 2, world … - CBS News
打个比方:如果直接将真实的机器人投入复杂危险的工厂,发生事故的风险很高。但如果让它在 Genie 2 创造的精细虚拟工厂中进行数万次预演,然后再送往实际环境,结果会怎样?我们将能够更快地制造出更安全、更聪明的机器人。Google Genie 2, an AI model to create playable 3D environments
轻松理解:什么是“世界模型”?
要理解 Genie 2,必须知道的核心术语就是 “基础世界模型 (Foundation World Model)”。这里的“世界模型”简单来说,就是 搭载在 AI 脑海中的虚拟物理定律词典。Genie 2, Google DeepMind가 개발한 대규모 기반 세계 모델
就像我们知道把球向上扔会因为重力而落下、在水中会因为阻力而动作变慢一样,Genie 2 也拥有关于世界运转规则的“常识”。
- 从 Genie 1 到 Genie 2:2024 年 3 月首次出现的初期模型“Genie”主要处于生成 2D(平面)虚拟环境的水平。当时它作为一个拥有 110 亿个参数(Parameter,AI 在学习过程中微调的数万亿个虚拟调节螺钉)的模型而备受关注。Genie (world model) - Wikipedia, [2402.15391] Genie: Generative Interactive Environments
- 向 3D 的惊人演进:此次发布的 Genie 2 实现了飞跃,生成了更加身临其境、内容丰富的 立体 3D 虚拟世界。Genie 2: The Next-Generation Foundation Model for 3D Worlds
这个聪明的 AI 通过观看互联网上的海量视频,自主领悟了世界的运动规律。因此,当我们发出“跳跃”或“游泳”的指令时,它能准确计算并展示该动作在虚拟世界中与重力或水阻力结合后的样子。Genie 2: A large-scale foundation world model — Google DeepMind
Genie 2 的惊人能力
Genie 2 不仅仅是一个播放固定视频的播放器,它提供了一个能实时响应用户操作并发生变化的“活生生的环境”。
- 仅凭一张照片创造世界:只需一张手机拍摄的风景照、上网时发现的精美图片,甚至是随手画在纸上的一张草图就足够了。Genie 2 以这张图像为种子,即时绽放出一个供我们亲自探索的 3D 空间。DeepMind’s Genie 2 generates playable 3D worlds from single …
- 随心所欲控制的乐趣:在生成的虚拟世界中,用户可以使用键盘和鼠标自由移动角色。角色与物体碰撞或进行复杂动作时的表现非常自然,仿佛应用了真实的物理定律。Genie 2, Google DeepMind가 개발한 대규모 기반 세계 모델
- 自主领悟物理定律:没有人教过 Genie 2“物体应该这样碰撞”等具体规则。相反,它通过学习海量数据,展现出了自主掌握物体间相互作用和物理定律的“涌现能力”。Genie 2: A large-scale foundation world model — Google DeepMind
- 保持空间一致性:如果在虚拟世界行走时回头发现刚才看到的树消失了,沉浸感会大打折扣。Genie 2 在探索过程中能保持空间一致性,允许用户在长达 1 分钟的时间内无矛盾地自由探索虚拟世界。DeepMind’s Genie 2 generates playable 3D worlds from single …
现状与挑战
尽管 Genie 2 是一项革命性的技术,但要像家用游戏机一样每天在家里享受,还面临一些限制。
- 探索时间的限制:目前在 Genie 2 生成的环境中自由活动的时间约为 1 分钟左右。DeepMind’s Genie 2 generates playable 3D worlds from single …
- 处于研究阶段的技术:目前这只是 Google DeepMind 内部的研究用技术,尚未完全向普通用户开放体验。不过,全球许多开发者正在尝试分析和发展这一框架。Genie 2: A large-scale foundation world model - simonwillison.net, GitHub - lucidrains/genie2-pytorch: Implementation of a framework for …
我们将面对怎样的未来?
像 Genie 2 这样的“基础世界模型”将成为未来人工智能的核心支柱。如果说至今为止的 AI 仅限于写文字或画图,那么现在 直接行动并理解世界的 AI 时代正在开启。Genie 2: How Google DeepMind’s AI is Creating Infinite …
在不久的将来,我们或许都能在 1 秒钟内创造出自己独特的虚拟世界,并将其中的快乐想象变为现实,与 AI 朋友一起踏上冒险之旅。此外,在 Genie 2 这一安全练习场接受训练的机器人,在我们客厅里帮忙打扫、一起做饭的日子似乎也不远了。Google DeepMind CEO demonstrates Genie 2, world … - CBS News
AI 的视角 (MindTickleBytes AI 记者的视角)
Genie 2 象征着 AI 不再仅仅是处理数据的工具,而是在成长为拥有独立世界观和理解物理定律的存在。无需一行代码,仅凭一张照片就能实现的无限世界,预示着人类想象力将摆脱技术限制而尽情施展的未来。我们凝视的一张照片,现在已然成为了新冒险的起点。
参考资料
- Genie (world model) - Wikipedia
- Genie 2: A large-scale foundation world model — Google DeepMind
- [2402.15391] Genie: Generative Interactive Environments
- GitHub - lucidrains/genie2-pytorch: Implementation of a framework for …
- Genie 2: A large-scale foundation world model - simonwillison.net
- Genie 2: The Next-Generation Foundation Model for 3D Worlds
- Genie 2, Google DeepMind가 개발한 대규모 기반 세계 모델
- Genie 2: How Google DeepMind’s AI is Creating Infinite …
- DeepMind’s Genie 2 generates playable 3D worlds from single …
- Google DeepMind CEO demonstrates Genie 2, world … - CBS News
- Google Genie 2, an AI model to create playable 3D environments
FACT-CHECK SUMMARY
- Claims checked: 16
- Claims verified: 16
- Verdict: PASS
- 只能单纯观看
- 可以用键盘和鼠标进行跳跃、游泳等操作
- 只能保存为图像文件
- 数千行编程代码
- 一张提示图像
- 专业的 3D 建模文件
- 基础世界模型 (Foundation World Model)
- 简单图像生成器
- 视频编辑工具