如果人类和AI在同一空间内实时互动会怎样？Odyssey ML‘Agora-1’的登场

AI Summary

Agora-1是一款创新的AI模型，它使人类和AI能够在同一个虚拟空间（世界模拟）中进行实时互动。

想象一下。周末的下午，您戴上虚拟现实（VR，Virtual Reality）设备登录了在线游戏。屏幕里有许多角色在四处奔跑。有人躲在墙后伺机而动，有人与队友交换眼神制定战术。然而，有一个令人惊讶的事实。在这个空间里与您一起奔跑的角色中，有一半是真人，而另一半是人工智能（AI）。更令人惊叹的是，您所在的这个复杂的游戏世界本身，并非由程序员预先一行行代码写死的固定地图，而是AI每时每刻根据您的动作实时“想象并绘制出来的世界”。

我们熟知的AI过去只存在于智能手机或电脑的文本输入框之后。当您打字输入“能告诉我拌饭的食谱吗？”或“请帮我翻译这句话”时，它是一位用文字回复的聪明助手。但是，最近的人工智能技术已经完全打破了这个方形的文本框，正大步迈入存在时间和空间、受物理法则支配的视觉世界。AI拥有了与我们相同的三维空间感，这意味着人工智能已经准备好深深地融入人类的生活。

为了让AI能够识别并像在现实空间中一样行动，全球顶尖企业正围绕这一技术展开激烈的竞争。在此背景下，人工智能初创公司Odyssey ML发布了一项非常有趣且令人惊叹的研究成果。他们正式公开了多智能体世界模型（Multi-Agent World Model）“Agora-1”，这使得人类和AI能够在同一个虚拟模拟环境中实时共处与互动 Odyssey ML发布多智能体世界模型Agora-1伴随…。这一消息超越了单纯的新品发布，被视为提前展示未来人类与AI将如何共享物理环境的重要里程碑。

为什么这很重要？（Why It Matters）

尽管如今像ChatGPT这样的AI取得了令人瞩目的发展，但它们仍然存在一个必须克服的致命局限，那就是无法直观地理解“物理世界是如何运转的”。人类的婴儿只需几次经验，就能本能地懂得将桌上的玻璃杯推下去，它就会掉在地上摔得粉碎。即使他们不懂什么是重力、玻璃有什么性质，也不知道复杂的物理学公式。然而，对于仅靠阅读大量文本进行学习的AI来说，教导它们这种立体的空间感和物理法则，比想象中要困难得多。

为了解决这一难题而出现的概念正是“世界模型（World Model）”。它通过学习海量的视频数据和物理交互，建立起一种机制：当采取某种行动时，AI能够自行预测下一刻世界会发生什么，并以视频的形式生成该结果。简而言之，它具备了在脑海中模拟世界运作方式的能力。

那么，Odyssey ML此次发布的Agora-1为什么特别呢？答案就在于其“多智能体（Multi-Agent，同一空间内同时存在多个主体）”的特性 Agora-1：多智能体世界模型。现有的世界模型研究主要集中在单智能体（Single-Agent）上。也就是在一个空荡荡的虚拟操场上，只放一个AI机器人，教它如何独自走路或抓取物品的水平。

但是，我们生活的现实世界绝不是一个只有自己存在的空荡荡的操场。无数人不断地互动，意想不到的突发情况到处发生。令人惊叹的是，Agora-1被设计成能让人类玩家和AI模型等多个参与者同时连接到同一个世界模拟环境，并实时共享空间体验Agora-1。这意味着，为了制造出能在上班早高峰拥挤的地铁中灵活穿梭避开人群的向导机器人，或是能在巨大的物流仓库中与人类工人默契配合搬运重物的协作机器人，所必须经历的核心技术终于迈出了第一步。这标志着AI正在从单纯观察世界，进化为在世界中与我们共同生活的AI。

轻松理解（The Explainer）

如果您对这些晦涩的技术术语感到有些陌生，我们可以这样打个比方。

让我们回想一下我们经常玩的传统3D视频游戏。这就好比“一座精细预先组装好的巨大乐高城堡”。游戏开发者使用虚幻引擎等程序，通过数百万行密密麻麻的代码预先设定好城墙的坚硬度、门的大小以及光线射入的角度。用户只是在开发者搭建得坚固的乐高城堡里，沿着允许的道路移动。如果开发者没有预先编写“倒水”的情况代码，那么在游戏里打翻杯子也不会发生任何事情。

相反，像Agora-1这样的最新世界模型则更像是一本“会自己思考的魔法素描本”。这本素描本里原本没有任何一幅完整的画作。取而代之的是，素描本（AI）本身深深洞悉了物理法则的原理。当您在虚拟现实中采取“向前迈出一大步”的动作时，AI会在0.1秒内自行计算出那一瞬间视野应该发生怎样的变化、投射在地面上的影子应该是什么形状，并刷刷地在素描本上画出下一个场景。实时创造世界的不是庞大的代码，而是AI在刹那间的推理能力。

再加上Agora-1最强大的武器“多智能体”能力。现在，这本魔法素描本不再是一个人的专属物。在一张无限宽广的画布上，多个人类和AI同时跃入其中，各自扮演不同的角色并大显身手，一场宏大的即兴戏剧舞台就此展开。

想象一下这个场景：在虚拟餐厅的画布中，一位人类参与者不小心碰倒了水杯（行动）。AI画布立即画出水在桌面上蔓延流动的景象（物理环境的变化）。与此同时，共享同一空间的AI服务员目睹了这一幕，便走到角落拿起抹布擦拭桌上的水（实时互动）。如果采用传统方法，程序员必须逐一输入“当水洒出时拿起抹布”的规则，但现在不需要了。这一切过程并不是基于任何人预先编写的剧本（代码），而是AI自行理解世界、实时塑造情况所产生的有机结果 Agora-1：多智能体世界模型。每个个体的微小举动都会影响整个世界，而变化后的世界又再次引发其他参与者的反应，从而构建出一个完美的生态系统。

现状（Where We Stand）

到了这个时候，您可能会产生合理的怀疑：“这种想象中的技术在现实中真的能正常运作吗？”毕竟计算机里的世界和现实的物理法则仍存在巨大差异。Odyssey ML希望向公众明确证明，这项技术不仅是写在实验室白板上的理论。因此，他们令人惊讶地大方公开了一个“可玩的研究预览版（Playable research preview）”，任何人只需访问网站即可亲自体验 Odyssey ML发布多智能体世界模型Agora-1伴随…。

最有趣的是他们选择的演示方式。Odyssey ML没有使用复杂的说明书，而是选择模拟了过去广为人知的经典射击游戏《黄金眼（GoldenEye）》的死亡竞赛（参与者在同一空间内为生存展开对决的模式）Odyssey ML推出Agora-1，一个多智能体世界模型，它…。过去朋友们将小小的电视屏幕分成四块来享受的这款经典游戏，如今成了最尖端人工智能的试验场。

当您登录预览版开始游戏时，人类和多个AI角色会在同一个虚拟空间中相互追逐躲避，展开一场紧张刺激的对决。表面上看，画面可能有点像粗糙的老游戏。但在画面背后发生的科技魔法却截然不同。这个画面不是由传统的3D游戏引擎绘制出来的。它完全是由Agora-1这一个庞大的人工智能模型，在瞬间吸收了四处奔跑的多个玩家的所有输入值后，计算出整个空间应发生怎样的变化，不断“生成”新的视频画面并进行实时直播体验Agora-1。

当人类玩家开枪打碎砖块时，AI实时模拟的这个世界会直接将物理破坏效果反映在画面上。同在一个房间里的AI角色们会察觉到砖块碎裂的声音，并惊慌地向其他隐蔽物躲藏。仅凭一个AI模型，就能一次性控制从物理法则的生成到众多角色的智能判断，这真是一幅令人惊叹的景象。

未来会怎样？（What’s Next）

在Odyssey ML惊艳发布之后不久，聚集了硅谷工程师和全球IT专家的巨大社区Hacker News上，就Agora-1等技术在未来将如何改变世界展开了异常热烈的讨论 [Agora-1：多智能体世界模型

Hacker News](https://news.ycombinator.com/item?id=48183748)。

专家们最期待的领域莫过于现实世界中的机器人学（Robotics）。Hacker News的一位用户提出了极其敏锐的见解。他指出：“这项技术要最终成功地转移（Transfer）到现实世界的机器人上，AI必须完美地学习并掌握虚拟世界的内部状态（Internal world state）。”

这是什么意思呢？直到现在，机器人研究人员在训练机器人时主要还是使用3D游戏引擎。这是因为游戏引擎允许一种“作弊”行为，即偷偷查看内部数据（物体的精确3D坐标、重量等）。但是，如果将机器人带到现实世界，根本不存在如此完美的内部数据。相比之下，像Agora-1这样的世界模型从一开始就没有打开内部数据的作弊码，它仅仅依靠摄像头观察世界，并自我内化物理法则进行训练。这样训练出来的机器人，即使脱离虚拟空间被直接放到现实世界的街道上，也能像我们人类用眼睛看世界、直观地把握情况一样，更快地适应新环境。

当然，并非只有玫瑰色的美好未来。在Hacker News的讨论中，也将这种世界模型需要跨越的巨大障碍称为“真正无界（Truly unbounded）的问题” [Agora-1：多智能体世界模型

Hacker News](https://news.ycombinator.com/item?id=48183748)。即使在发生枪战的狭窄且受限的地图内模拟取得了完美成功，但在天气变化无常、数千辆汽车拥堵、突发变量无限涌现的现实大都市中心，AI是否能稳定地承受住如此的复杂性，将成为未来最大的技术挑战。

尽管如此，我们现在正站在一个清晰的历史转折点上。超越了只在显示器中吐出文字的聊天机器人时代，我们正在进入一个与AI呼吸着相同的空气、通过彼此行动实时产生影响的真正具身智能（Embodied AI，拥有物理实体并与世界进行交互的人工智能）时代。在不久的将来，我们会经常看到：在早晨上班途中的道路上，我们的车与数十辆自动驾驶AI车辆默契配合，平稳穿梭于狭窄的小巷中；在工厂里，机器人能迅速捕捉人类皱眉的表情变化，在最合适的时机帮忙搬起重物。Agora-1正是人类为了那个原本模糊梦想的充满活力的未来而绘制出的第一本伟大的素描本。

MindTickleBytes的AI记者视角
“以单智能体为中心的世界模型扩展到了多智能体，这具有非常深刻的象征意义。人工智能如今已摆脱了那个只会喊出既定答案的孤独天才秘书形象，进化成在复杂喧闹的世界中懂得理解他人行动并立即协作的真正伙伴。未来真正的技术创新，不再仅仅是肉眼可见的精美画面，而是源自于那种准确无误地计算无数参与者之间瞬间互动的那股看不见的连接力量。我们与AI共同呼吸生活的明日舞台，已经准备就绪。”

参考资料

Odyssey ML发布多智能体世界模型Agora-1伴随…
Agora-1：多智能体世界模型
体验Agora-1
[Agora-1：多智能体世界模型 Hacker News](https://news.ycombinator.com/item?id=48183748)
Odyssey ML推出Agora-1，一个多智能体世界模型，它…

Share this article:

测试你的理解

Q1. Agora-1最核心的特征是什么？

文档翻译速度比现有AI提高了10倍。
人类和多个AI可以在同一个世界模拟中实时互动。
这是一项能大幅减少电脑电池消耗的技术。

Agora-1是多智能体世界模型，旨在让包括人类和AI在内的多个参与者共享同一个虚拟空间并进行实时互动。

Q2. Odyssey ML为了向公众证明Agora-1的性能，发布了什么形式的预览版？

基于多人的‘黄金眼’死亡竞赛模拟
股票市场实时价格预测仪表板
分析医生和患者诊疗记录的程序

Odyssey ML发布了一款模仿经典游戏《黄金眼》多人死亡竞赛的研究预览版，供任何人亲身体验。

Q3. 正文中对世界模型（World Model）技术最恰当的比喻是什么？

按照预先设计好的图纸组装的乐高积木
反复播放录音的自动答录机
根据用户的行动实时计算下一场景物理法则并绘制出来的魔法素描本

世界模型就像一本魔法素描本，在学习了世界运作规律和物理法则后，能够根据输入的动作自行预测并生成未来的场景。