谷歌 DeepMind 的 'Genie 2' 是一款突破性的 AI 模型,仅凭一张图像即可生成用户可直接探索和互动的 3D 虚拟世界。
一张照片变身活生生的游戏世界?谷歌新 AI ‘Genie 2’ 的故事
想象一下,你小时候画的一张稚嫩画作,或是旅途中拍摄的一张普通照片,突然变成了一个活生生的 3D 游戏世界,那会是怎样的体验?你可以走进那张照片,触摸树木,在小溪中游泳,或者跳上山丘。就像电影《勇敢者游戏》(Jumanji)一样,现实中的图像变成了一个立体的冒险空间,这种魔法般的事情现在已经近在咫尺。
这听起来像是童话故事,但得益于谷歌 DeepMind(Google DeepMind)最近发布的全新 AI 模型 ‘Genie 2’,这个想象离现实又近了一步。Genie 2:大规模基础世界模型 — Google DeepMind 那么,这个“智能灯神”究竟想为我们展现一个怎样的世界呢?
为什么这很重要?
到目前为止,AI 主要擅长写作(ChatGPT)或绘制精美的图画(Midjourney)。但 Genie 2 与众不同,它被称为 ‘世界模型(World Model)’。简单来说,它是具备了能够理解并模拟(虚拟实验)周围环境的物理规律和相互作用能力的 AI 模型。Genie 2:大规模基础世界模型 — Google DeepMind
为什么这很重要?因为它不仅仅是展示一段漂亮的视频,更意味着当你在此中执行某种操作时,AI 可以预见结果并做出实时“反应”。
打个比方,如果说现有的 AI 是播放完整电影的放映机,那么 Genie 2 就像是一个巨大的戏剧舞台,观众可以随意改变剧本并在其中尽情玩耍。当角色跳入水中时,AI 会实时计算并描绘出水花四溅、受重力影响而下沉等物理反应。这种技术不仅带来了制作游戏的乐趣,还具有巨大的潜力,例如可以帮助现实世界的机器人在安全的虚拟世界中进行高度训练,而无需经历危险的事故,从而为整个产业带来巨变。Google DeepMind 首席执行官演示 Genie 2,世界生成器… - CBS News
轻松理解:Genie 2 是如何运作的?
如果用一句话来定义 Genie 2,那就是 ‘想象力丰富的超级游戏制作人’。Genie 2:大规模基础世界模型 - simonwillison.net
通常制作游戏需要许多程序员编写复杂的代码,设计师熬夜画出立体模型。但 Genie 2 只要给定一张照片,就能瞬间将其中的平面空间重构为立体的 3D 场景。Genie 2:下一代 3D 世界基础模型
1. 预测行为结果的智能
Genie 2 会根据用户的输入(跳跃、游泳、行走等)自行判断虚拟世界应该如何变化。Genie 2:大规模基础世界模型 — Google DeepMind 这就像我们闭上眼睛想象“如果我在这里扔一块石头,那扇窗户就会碎掉吧?”一样。AI 并不是从教科书上学习物理规律(Physics),而是通过大量的经验自我习得。Genie 2:大规模基础世界模型 - deepmind.google
2. 通过视频自学世界
这个聪明的 AI 是如何获得这种能力的呢?答案是学习了海量的视频数据。Genie 2:大规模基础世界模型 — Google DeepMind 就像婴儿观察世界学习一样,Genie 2 通过观看无数视频,领悟了“人这样移动的话,背景就会这样改变”、“物体碰撞后会弹开”等因果关系。通过这个过程,Genie 2 能够极其生动地描述复杂的角色关节运动和自然的相互作用。Genie 2:大规模基础世界模型 - deepmind.google
3. 甚至能读懂其他角色的心?
更令人惊讶的是,Genie 2 甚至能预测虚拟世界中其他存在(智能体)的行为。Genie 2:大规模基础世界模型 - deepmind.google 不仅仅是背景在变,AI 还会计算并展示虚拟世界中的其他人物将如何对我的动作做出反应。这简直就像是在模拟一整个活生生的生态系统。
现状:从 2D 到 3D 的巨大跨越
事实上,Genie 2 有一位可靠的兄长,那就是在 2024 年初发布的 ‘Genie (Genie 1)’。Genie 1 是一个拥有约 110 亿参数(相当于 AI 脑细胞的权重信息)的模型,主要成功创建了平面 2D 游戏环境。[2402.15391] Genie:生成式交互环境
但这次登场的 Genie 2 实现了跨越,创造出了深度更深、沉浸感更强的 3D 虚拟世界。Genie 2:下一代 3D 世界基础模型 谷歌 DeepMind 方面对此自信地评价为 AI 技术在“通用性方面的重大跨越”。谷歌发布 Genie 2:大规模基础世界模型
这个雄心勃勃的项目在 Jack Parker-Holder 的领导下,由 Stephen Spencer 奠定了技术基础,是数十名天才研究员共同努力的结晶。Genie 2:大规模基础世界模型
未来将如何发展?
谷歌 DeepMind 的 CEO 德米斯·哈萨比斯(Demis Hassabis)在美国知名时事节目《60 分钟》(60 Minutes)中亲自演示了 Genie 2,引发了全世界的关注。Google DeepMind 首席执行官演示 Genie 2,世界生成器… - CBS News
哈萨比斯 CEO 明确表示,这项技术绝不仅限于娱乐工具。目前最受关注的领域是 ‘机器人的早期教育’。Google DeepMind 首席执行官披露 Genie 2:AI 驱动的世界生成器…
在现实世界中训练真实机器人不仅面临损坏昂贵设备的风险,还始终伴随着事故隐患。但如果在 Genie 2 生成的“比现实更真实的虚拟世界”中训练机器人成千上万次,结果会怎样?机器人将在安全的尝试中学习,并变得更加精细和高效。此外,在教育和艺术创作领域,即时实现梦想中的世界并亲自探索的时代似乎也即将开启。Google DeepMind 首席执行官披露 Genie 2:AI 驱动的世界生成器…
AI 的视角 (MindTickleBytes AI 记者的一句话)
Genie 2 的出现暗示着 AI 不仅仅是“读写绘画的秘书”,更开始真正理解我们脚下“世界的运作原理”。这项能够随心所欲创造物理法则鲜活存在的虚拟空间的技术,不久后将打破现实与虚拟的界限,加速聪明机器人自然融入我们日常生活的“智能体时代”。从一张照片开始的冒险将如何改变我们的生活,真的非常值得期待,不是吗?
参考资料
- Genie 2: A large-scale foundation world model — Google DeepMind
- [2402.15391] Genie: Generative Interactive Environments
- Genie 2: The Next-Generation Foundation Model for 3D Worlds
- Genie 2: A large-scale foundation world model - simonwillison.net
- Genie 2: A Large-scale Foundation World Model
- Google announces Genie 2: A large-scale foundation world model
- Google DeepMind CEO demonstrates Genie 2, world … - CBS News
- Google DeepMind CEO Reveals Genie 2: AI-Powered World …
- Genie 2: A large-scale foundation world model - deepmind.google
- 复杂的编程代码
- 仅一张图像
- 专业的 3D 图纸
- 1D(线)
- 2D(平面)
- 3D(空间)
- 股票市场预测
- 开发烹饪食谱
- 机器人的学习与训练