Google DeepMind 的『Genie 2』是一款突破性的 AI 模型,能從單張圖像生成讓使用者直接探索並互動的 3D 虛擬世界。
一張照片就能變成栩栩如生的遊戲世界?Google 全新 AI 『Genie 2』的故事
想像一下,一張小時候畫的拙劣圖畫,或是在旅遊景點拍的平凡照片,突然變成栩栩如生的 3D 遊戲世界會是什麼樣子?如果你能走進那張照片,觸摸樹木、在小溪游泳,甚至跳上小山丘。就像電影《野蠻遊戲》(Jumanji)一樣,現實的圖像變成一個立體的冒險空間,這種魔法般的事情現在已經近在眼前。
這聽起來像是童話故事,但多虧了 Google DeepMind 最近公開的全新 AI 模型 『Genie 2』,這個想像距離現實又更近了一步。Genie 2:大規模基礎世界模型 — Google DeepMind 究竟這個『智慧神燈精靈』想向我們展示什麼樣的世界呢?
這為什麼很重要?
目前的 AI 主要專精於寫作(ChatGPT)或繪製精美的圖畫(Midjourney)。但 Genie 2 的層次完全不同。這款 AI 被稱為 『世界模型(World Model)』。簡單來說,它是具備自行理解並模擬(虛擬實驗)周圍環境物理定律與互動能力的 AI 模型。Genie 2:大規模基礎世界模型 — Google DeepMind
這為什麼重要?因為這不僅是展示漂亮的影片,更意味著當我們在其中進行某些操作時,AI 能提前『預測』會發生什麼結果,並進行即時『反應』。
打個比方,如果現有的 AI 是播放完整電影的放映機,那麼 Genie 2 就如同一個巨大的舞台,觀眾可以隨意更改劇本並在其中遊玩。當角色跳入水中,AI 會即時計算並繪製出濺起的水花,以及受重力影響下沉的物理反應。這項技術不僅能帶來製作遊戲的樂趣,更具備巨大的產業潛力,例如幫助現實世界的機器人在安全的虛擬世界中進行高度訓練,而無需承擔發生危險事故的風險。Google DeepMind 執行長演示 Genie 2,世界構建 AI 模型 - CBS News
輕鬆理解:Genie 2 是如何運작的?
如果用一句話定義 Genie 2,可以稱它為 『想像力豐富的天才遊戲製作人』。Genie 2:大規模基礎世界模型 - simonwillison.net
通常製作遊戲需要眾多程式設計師編寫複雜代碼,設計師通宵達旦繪製立體模型。但 Genie 2 只要給它一張照片,就能瞬間將其中的平面空間重新構建為立體的 3D 世界。Genie 2:次世代 3D 世界基礎模型
1. 預測行動結果的智慧
Genie 2 會根據使用者的輸入(跳躍、游泳、行走等)自行判斷虛擬世界該如何變化。Genie 2:大規模基礎世界模型 — Google DeepMind 這就像我們閉上眼睛想像『如果我在這裡扔石頭,那扇窗戶會碎吧?』一樣。AI 不是從教科書學習物理定律(Physics),而是透過無數經驗自行領悟。Genie 2:大規模基礎世界模型 - deepmind.google
2. 透過影片自學世界
這款聰明的 AI 是如何獲得這種能力的?答案是學習了龐大的影片數據。Genie 2:大規模基礎世界模型 — Google DeepMind 就像嬰兒透過觀察世界來學習一樣,Genie 2 透過觀看無數影片領悟了因果關係,例如「當人這樣移動時,背景會這樣變化」、「當物體相互碰撞時會彈開」。透過這個過程,Genie 2 能夠以令人驚嘆的逼真度描繪複雜角色的關節運動或自然的互動。Genie 2:大規模基礎世界模型 - deepmind.google
3. 甚至能讀懂其他角色的心思?
更令人驚訝的是,Genie 2 甚至能預測該虛擬世界中其他存在(Agent)的行為。Genie 2:大規模基礎世界模型 - deepmind.google 不僅背景會變,AI 還會計算並呈現虛擬世界中的其他人物如何應對我的動作。這簡直就像是在模擬一整個活生生的生態系統。
現狀:從 2D 到 3D 的巨大飛躍
事實上,Genie 2 有一個可靠的哥哥,那就是 2024 年初公開的 『Genie 1 (Genie)』。Genie 1 是擁有約 110 億個參數(充當 AI 腦細胞權重資訊)的模型,主要成功創建了平面 2D 遊戲環境。[2402.15391] Genie:生成式互動環境
然而,這次登場的 Genie 2 遠遠超越了前者,創造出深度更深、更具沉浸感的 3D 虛擬世界。Genie 2:次世代 3D 世界基礎模型 Google DeepMind 信心十足地評價這是 AI 技術在「通用性方面的重大飛躍」。Google 發布 Genie 2:大規模基礎世界模型
這個雄心勃勃的項目由 Jack Parker-Holder 領導,Stephen Spencer 奠定了技術基礎,是數十位天才研究員共同努力的成果。Genie 2:大規模基礎世界模型
未來會如何?
Google DeepMind 執行長 Demis Hassabis 曾出席美國知名新聞節目《60 分鐘》(60 Minutes)親自演示 Genie 2,吸引了全球目光。Google DeepMind 執行長演示 Genie 2,世界構建 AI 模型 - CBS News
Hassabis 執行長明確表示,這項技術不會僅停留於娛樂工具。最受矚目的領域正是 『機器人的早期教育』。Google DeepMind 執行長揭秘 Genie 2:AI 驅動的世界構建模型
在現實世界中訓練機器人,昂貴的設備損壞風險很大,且事故風險始終存在。但如果讓機器人在 Genie 2 生成的『比現實更真實的虛擬世界』中訓練數萬次會怎樣?機器人將能安全地經歷試錯,學會更精準、更快速地工作。此外,在教育現場或藝術創作領域,現場實現我們夢想中的世界並親自探索的時代似乎即將開啟。Google DeepMind 執行長揭秘 Genie 2:AI 驅動的世界構建模型
AI 的觀點(MindTickleBytes AI 記者的一句話)
Genie 2 的出現預示著 AI 已超越單純『閱讀文字與繪製圖片的助手』,開始正式理解我們所立足的『世界的運作原理』。這項能隨意創造物理定律躍然紙上的虛擬空間的技術,不久後將打破現實與虛擬的隔閡,進一步加速智慧機器人自然融入我們日常生活的『智慧代理(Agentic)時代』。從一張照片開始的冒險將如何改變我們的生活,難道不令人期待嗎?
參考資料
- Genie 2: A large-scale foundation world model — Google DeepMind
- [2402.15391] Genie: Generative Interactive Environments
- Genie 2: The Next-Generation Foundation Model for 3D Worlds
- Genie 2: A large-scale foundation world model - simonwillison.net
- Genie 2: A Large-scale Foundation World Model
- Google announces Genie 2: A large-scale foundation world model
- Google DeepMind CEO demonstrates Genie 2, world … - CBS News
- Google DeepMind CEO Reveals Genie 2: AI-Powered World …
- Genie 2: A large-scale foundation world model - deepmind.google
- 複雜的程式碼
- 單張圖像
- 專業的 3D 圖紙
- 1D(線條)
- 2D(平面)
- 3D(空間)
- 預測股票市場
- 開發烹飪食譜
- 機器人的學習與訓練