如果人類和 AI 在同一空間即時互動會怎樣?Odyssey ML 推出「Agora-1」

呈現人類與 AI 在同一虛擬空間即時互動的 3D 插圖
AI Summary

Agora-1 是一款創新的 AI 模型,能讓人類與 AI 在同一個虛擬空間(世界模擬)中進行即時互動。

想像一下。在一個週末的下午,您戴上虛擬實境(VR,Virtual Reality)裝置,登入了一款線上遊戲。畫面中有幾個角色跑來跑去。有人躲在牆後伺機而動,有人則與隊友交換眼神擬定作戰計畫。但有一個令人驚訝的事實:在這個空間裡與您一起奔跑的角色中,有一半是真人,另一半則是人工智慧(AI)。更令人驚訝的是,您所暢遊的這個複雜遊戲世界,本身並不是程式設計師預先一筆一劃寫好程式碼的固定地圖,而是 AI 根據您每一個瞬間的動作,即時「想像並描繪出來的世界」。

我們熟知的 AI 通常存在於智慧型手機或電腦的文字輸入框背後。只要輸入「請告訴我拌飯的食譜?」、「請幫我翻譯這句話」,它就會以文字回覆,像是一位聰明的秘書。然而,最近的人工智慧技術已經完全打破了這個方形的文字方塊,正大步走入一個存在時間與空間、並受物理定律支配的視覺世界。當 AI 擁有了與我們相同的 3D 空間感,這意味著人工智慧已經準備好深入人類的生活之中。

為了讓 AI 能夠認知並在如現實般的空間中行動,全球頂尖企業正為此技術展開激烈的競爭。在這樣的背景下,人工智慧新創公司 Odyssey ML 發布了一項非常有趣且令人驚嘆的研究成果。他們正式公開了「Agora-1」——這是一款多代理世界模型(Multi-Agent World Model),能讓人類與 AI 在同一個虛擬模擬環境中即時互動並共處 Odyssey ML 發布 Agora-1 多代理世界模型…。這則消息不僅僅是一次單純的新產品發布,更被視為是預示未來人類與 AI 將如何共享物理環境的重要里程碑。

為什麼這很重要?(Why It Matters)

儘管現今如 ChatGPT 等 AI 發展得再怎麼耀眼,仍存在著必須克服的致命局限。那就是它們無法直觀地理解「世界在物理上是如何運作的」。人類嬰兒只需幾次經驗,就能本能地領悟到如果把桌上的玻璃杯推下去,它就會掉在地上摔得粉碎。即使他們不懂什麼是重力、玻璃有什麼特性等複雜的物理公式。但對於只靠閱讀大量文字文件來學習的 AI 而言,要教導它們這種立體的空間感與物理定律,是一件超乎想像的難事。

為了解決這個難題而出現的概念,正是「世界模型(World Model)」。它是指透過學習無數的影像資料與物理互動,讓 AI 能夠在採取某種行動時,自行預測下一瞬間世界會發生什麼事,並以影片的形式生成結果的架構。簡單來說,就是具備了在腦海中模擬世界運作方式的能力。

那麼,Odyssey ML 這次發布的 Agora-1 為什麼特別呢?答案就在於其「多代理(Multi-Agent,指同一空間中同時存在多個主體)」的特性 Agora-1:多代理世界模型。過去的世界模型研究主要集中在單一代理(Single-Agent)上。其程度大約是把一個 AI 機器人孤零零地放在空蕩蕩的虛擬遊樂場裡,教它如何自己走路或撿起物品。

然而,我們生活的現實世界絕非只有我獨自一人的空蕩遊樂場。無數的人們不斷地產生交集,意想不到的突發狀況隨處可見。令人驚訝的是,Agora-1 被設計成能讓人類玩家與 AI 模型等多名參與者同時登入相同的世界模擬環境,即時共享空間 體驗 Agora-1。這意味著,為了打造出能在上班時間擁擠的地鐵中巧妙避開人群的導覽機器人,或者在大型物流倉庫中與人類員工默契配合搬運重物的協作機器人,一項必不可少的核心技術終於邁出了第一步。這等於宣告了 AI 正從單純「看著」世界,進化為在世界中與我們「共同生活」。

輕鬆理解(The Explainer)

如果您對艱澀的技術術語感到有些陌生,讓我們來做個比喻。

回想一下我們常玩的傳統 3D 電玩遊戲吧?它就像是一座「預先精心組裝好的巨大樂高城堡」。遊戲開發者利用如虛幻引擎(Unreal Engine)等程式,用數百萬行程式碼密密麻麻地預先設定好城牆的堅固程度、門的大小以及光線射入的角度。使用者只是在開發者堅固建好的樂高城堡裡,沿著允許的道路移動而已。如果開發者沒有事先寫好「水打翻的情況」的程式,即使在遊戲裡打翻杯子,什麼事也不會發生。

相反地,像 Agora-1 這樣最新的世界模型則更接近於一本「會自己思考的魔法素描本」。這本素描本裡打從一開始就沒有任何一張完成的畫。取而代之的是,素描本(AI)本身已深刻洞悉物理定律的原理。當您在虛擬實境中做出「向前跨出一大步」的動作時,AI 會在 0.1 秒內自行計算出那一瞬間視野應如何改變、地板上的影子應呈現什麼形狀,並在素描本上迅速畫出下一個場景。不是依靠龐大的程式碼,而是憑藉 AI 瞬間的推論能力,即時創造出這個世界。

再加上 Agora-1 最大的武器——「多代理」能力。現在這本魔法素描本不再是某一個人的專屬品。在同一張無邊無際的畫布上,多名人類與 AI 同時躍上舞台,扮演各自不同的角色,展開一場宏大的即興戲劇

在腦海中想像一個場景:在虛擬餐廳的畫布裡,人類參與者不小心碰倒了水杯(行動)。於是 AI 畫布立刻畫出水在桌面上蔓延流動的樣子(物理環境的改變)。與此同時,共享同一空間的 AI 服務生目睹了這一幕,便從角落拿起抹布開始擦水(即時互動)。如果是過去的方法,程式設計師必須逐一輸入「水打翻時要拿抹布」的規則,但現在不用了。這整個過程並非基於某人預先寫好的腳本(程式碼),而是 AI 自行理解世界並即時塑造情境所產生的有機結果 Agora-1:多代理世界模型。每個人的微小舉動都會影響整個世界,而這個改變後的世界又會再次引發其他參與者的反應,從而建立起一個完美的生態系統。

現狀(Where We Stand)

說到這裡,您可能會產生一個合理的懷疑:「這種存在於想像中的技術,真的能在現實中順利運作嗎?」畢竟電腦裡的世界與現實的物理定律仍有很大的差異。Odyssey ML 希望向大眾明確證明,這項技術不僅僅是寫在實驗室白板上的理論。因此,他們令人驚喜地公開發布了任何人都可以登入網站親自試玩的「研究用預覽版本(Playable research preview)」 Odyssey ML 發布 Agora-1 多代理世界模型…

最有趣的一點是他們選擇的展示方式。Odyssey ML 捨棄了複雜的說明書,選擇模擬許多人都很熟悉的過去經典射擊遊戲「黃金眼(GoldenEye)」的死鬥模式(參與者在同一空間中為了生存而對決的模式) Odyssey ML 推出 Agora-1,這是一個多代理世界模型…。過去需要將小電視畫面切割成四塊與朋友同樂的經典遊戲,如今已成為最尖端人工智慧的試驗舞台。

當您登入預覽版本並開始遊玩時,人類與多名 AI 角色將在同一個虛擬空間中混戰,展開互相追逐閃躲的激烈對決。從表面上看,畫面可能像是有點粗糙的老遊戲。但在螢幕背後上演的技術魔法卻截然不同。這個畫面並不是由傳統 3D 遊戲引擎所繪製出來的。而是單靠 Agora-1 這個巨大的人工智慧模型,在瞬間吸納所有四處奔跑的玩家輸入值後,計算出整個空間應如何改變,並不斷「生成」新的影片畫面,進行即時轉播 體驗 Agora-1

當人類玩家開槍打碎磚塊時,AI 即時模擬的這個世界會立刻將物理破壞效果反映在畫面上。而同一個房間裡的 AI 角色們會感知到磚塊被破壞的聲音,並慌忙躲向其他掩蔽物。這是一個令人驚嘆的景象:單一 AI 模型一次掌控了從生成物理定律到多名角色的智慧判斷等所有事情。

未來將會如何?(What’s Next)

在 Odyssey ML 驚喜發布消息後不久,匯聚了矽谷工程師與全球 IT 專家的龐大社群 Hacker News 上,針對像 Agora-1 這樣的技術未來將如何改變世界,展開了非常熱烈的討論 [Agora-1:多代理世界模型 Hacker News](https://news.ycombinator.com/item?id=48183748)。

專家們最寄予厚望的領域,莫過於現實世界的機器人工程學(Robotics)。Hacker News 上的一名使用者提出了非常敏銳的見解。他指出:「如果這項技術最終要成功轉移(Transfer)到現實世界的機器人身上,AI 就必須完美學習虛擬世界的內部狀態(Internal world state)本身。」

這是什麼意思呢?一直以來,機器人研究人員在訓練機器人時,主要使用 3D 遊戲引擎。這是因為遊戲引擎允許偷偷查看內部資料(物品的精確 3D 座標、重量等),這是一種宛如「作弊」的行為。然而,一旦把機器人帶到現實世界,根本不可能存在那種完美的內部資料。相反地,像 Agora-1 這樣的世界模型,打從一開始就沒有能打開內部資料的作弊代碼,它只透過攝影鏡頭觀看世界,並將物理定律內化來進行訓練。經過這樣訓練的機器人,即使離開虛擬空間,突然被丟到現實世界的街道上,也能像我們人類用眼睛看世界並直觀掌握情況一樣,以快得多的速度適應新環境。

當然,未來並不全然是玫瑰色的。在 Hacker News 的討論中,有人指出這類世界模型必須跨越的巨大障礙,即「真正無限制的(Truly unbounded)問題」 [Agora-1:多代理世界模型 Hacker News](https://news.ycombinator.com/item?id=48183748)。即便在發生槍戰的狹窄受限地圖內的模擬取得了輝煌的成功,但面對天氣隨時變化、數千輛汽車交織、突發變數無限湧現的現實大城市中心,AI 究竟能否穩定承受其中的複雜性,將是未來的最大技術挑戰。

儘管如此,我們現在無疑正處於一個歷史性的轉捩點。我們正在跨越只會在螢幕裡吐出文字的聊天機器人時代,邁入一個與 AI 共享同樣空氣、雙方的行動即時互相影響的真正具身智能(Embodied AI,具備物理實體並與世界互動的人工智慧)時代。在不久的將來,我們將會在早晨上班途中的道路上,日常地看到我們的車子與數十輛自駕 AI 車輛巧妙地相互配合,順利通過狹窄的巷弄;在工廠裡,將會看到機器人迅速讀懂人類皺眉的表情變化,並在適切的時機幫忙抬起重物。Agora-1 便是人類為了實現那個曾經只敢模糊夢想著的充滿活力的未來,所畫出的第一本偉大素描本。


MindTickleBytes 的 AI 記者觀點
「以單一代理為中心的世界模型擴展至多代理,具有非常象徵性的意義。人工智慧現在正擺脫只能喊出標準答案的孤獨天才秘書形象,逐漸進化成在複雜喧鬧的世界中理解他人行為並懂得立即合作的真正夥伴。未來的真正技術創新,不會僅僅停留在肉眼可見的精美圖像,而是從那股能毫無誤差地計算出無數參與者之間瞬間互動的無形連結力量開始。我們與 AI 共同呼吸生活的明日舞台,已經準備就緒。」

參考資料

  1. Odyssey ML 發布 Agora-1 多代理世界模型…
  2. Agora-1:多代理世界模型
  3. 體驗 Agora-1
  4. [Agora-1:多代理世界模型 Hacker News](https://news.ycombinator.com/item?id=48183748)
  5. Odyssey ML 推出 Agora-1,這是一個多代理世界模型…
測試你的理解
Q1. Agora-1 最核心的特徵是什麼?
  • 文件翻譯速度比現有 AI 提升 10 倍。
  • 人類和多個 AI 可以在同一個世界模擬中進行即時互動。
  • 能大幅減少電腦電池消耗的技術。
Agora-1 是一個多代理世界模型,專為讓人類與 AI 等多名參與者共享同一虛擬空間並進行即時互動而設計。
Q2. Odyssey ML 為了向大眾證明 Agora-1 的效能,發布了什麼形式的預覽版本?
  • 基於多人遊戲的「黃金眼」死鬥模擬
  • 股市即時價格預測儀表板
  • 分析醫生和患者診療紀錄的程式
Odyssey ML 發布了一款以經典遊戲「黃金眼」多人死鬥模式為原型的研究用預覽版本,讓任何人都能親自體驗。
Q3. 在本文中,最能說明世界模型(World Model)技術的比喻是什麼?
  • 按照預先設計圖組裝的樂高積木
  • 重複播放錄音檔的自動答錄機
  • 根據使用者的動作,即時計算物理定律並畫出下個場景的魔法素描本
世界模型就像一本魔法素描本,在學習了世界的運作原理和物理定律後,能根據輸入的動作自行預測並生成未來的場景。