一張照片變身遊戲世界？Google DeepMind「Genie 2」打造的魔幻未來

AI Summary

Google DeepMind 的「Genie 2」是一個大型基礎世界模型，能基於單張圖像生成使用者可直接控制並探索的無限 3D 虛擬環境。

請想像一下。您向 AI 展示了一張昨天與家人旅行時拍攝的山頂風景照。就在您說出「我想進入這張照片」的瞬間，平面照片變成了具有深度感的 3D 空間。您可以使用鍵盤和滑鼠親自在山徑上行走，在附近的湖泊游泳，甚至觀察向水面投擲石塊時激起的漣漪。

這不再是科幻電影中的想像。這是 Google DeepMind 最新公開的次世代 AI 模型 「Genie 2」 正在實現的景觀。Genie 2：大型基礎世界模型 — Google DeepMind

這為什麼如此重要？

我們到目前為止所享受的遊戲或虛擬實境 (VR)，都是無數開發者日以繼夜編寫程式碼、逐一捏合複雜 3D 模型所付出的巨大努力成果。但 Genie 2 採用了完全不同的方法。這款 AI 無需預設程式，就能像人類做夢一樣，當場自主繪製出世界。Genie 2：大型基礎世界模型 - simonwillison.net

Genie 2 之所以重要，不僅是因為它能快速製作出「有趣的遊戲」。這款模型是 AI 正 「自主學習現實世界如何運作」 原理的強力證據。Google DeepMind 執行長 Demis Hassabis 強調，這項技術在不久的將來將成為訓練智慧機器人的核心工具。Google DeepMind 執行長演示 Genie 2，世界… - CBS News

打個比方。如果將實際機器人直接投入複雜且危險的工廠，發生事故的風險很高。但如果讓機器人在 Genie 2 創建的精細虛擬工廠中進行數萬次預演後，再送到實際環境中會如何呢？我們將能更快地製造出更安全、更聰明的機器人。Google Genie 2，一款用於創建可操作 3D 環境的 AI 模型

輕鬆理解：什麼是「世界模型」？

理解 Genie 2 必須知道的核心術語是 「基礎世界模型 (Foundation World Model)」。簡單來說，「世界模型」就像是 搭載在 AI 大腦中的虛擬物理定律字典。Genie 2，Google DeepMind 開發的大型基礎世界模型

就像我們知道球往上丟會因為重力落下一樣，Genie 2 對世界依據什麼規則運轉也擁有「常識」。

從 Genie 1 到 Genie 2：2024 年 3 月首次亮相的初期模型「Genie」主要處於創建 2D（平面）虛擬環境的水準。當時它作為擁有 110 億個參數（Parameter，AI 學習時微調的數兆個虛擬調節螺絲）的模型而備受關注。Genie (世界模型) - 維基百科, [2402.15391] Genie：生成式互動環境
向 3D 的驚人進化：這次發布的 Genie 2 實現了飛躍性的突破，能生成更具沉浸感且豐富的 立體 3D 虛擬世界。Genie 2：下一代 3D 世界基礎模型

這款聰明的 AI 透過觀看網路上無數的影片，自主領悟了世界的運動。因此，當我們下達「跳躍」或「游泳」的指令時，它能精確計算並展示該行動在虛擬世界中如何與重力或水阻結合表現出來。Genie 2：大型基礎世界模型 — Google DeepMind

Genie 2 的驚人能力

Genie 2 不僅僅是一個播放固定影像的播放器。它提供了一個能即時響應使用者操作並變化的「活生生的環境」。

僅憑一張照片創造世界：無論是智慧型手機拍攝的風景照、網路上發現的美麗圖像，甚至是紙上隨手勾勒的草圖，只要一張就足夠。Genie 2 以這張圖像為種子，當場開拓出我們可以親自探索的 3D 空間。DeepMind 的 Genie 2 從單張圖像生成可操作的 3D 世界…
隨心所欲控制的樂趣：在生成的虛擬世界中，使用者可以使用鍵盤和滑鼠自由移動角色。當角色與物體碰撞或進行複雜動作時，表現出的動態就像套用了實際物理定律一樣自然。Genie 2，Google DeepMind 開發的大型基礎世界模型
自主領悟的物理定律：Genie 2 從未向任何人學習過「物體應該這樣碰撞」的個別規則。相反，它透過學習海量數據，展現出自主領悟物體間互動與物理定律的「創發能力」。Genie 2：大型基礎世界模型 — Google DeepMind
維持空間一致性：如果在虛擬世界中行走時回頭一看，剛才看到的樹消失了，沉浸感會大打折扣。Genie 2 在探索過程中維持空間的一致性，讓使用者能自由探索虛擬世界長達 1 分鐘而不會產生矛盾。DeepMind 的 Genie 2 從單張圖像生成可操作的 3D 世界…

現狀與挑戰

Genie 2 雖然是創新技術，但要像家用遊戲機一樣每天享受，還有一些限制。

探索時間的限制：目前在 Genie 2 生成的環境中自由活動的時間約為 1 分鐘左右。DeepMind 的 Genie 2 從單張圖像生成可操作的 3D 世界…
研究階段的技術：目前它是 Google DeepMind 內部的研究用技術，尚未完全開放給一般使用者親自體驗。不過，全球各地的開發者正不斷嘗試分析並改進這個框架。Genie 2：大型基礎世界模型 - simonwillison.net, GitHub - lucidrains/genie2-pytorch：一個框架的實現…

我們將面對什麼樣的未來？

像 Genie 2 這樣的「基礎世界模型」將成為未來人工智慧的核心支柱。如果說之前的 AI 僅限於編寫文字或繪製圖像，那麼現在 直接行動並理解世界的 AI 時代即將開啟。Genie 2：Google DeepMind 的 AI 如何創造無限…

在不久的將來，我們每個人或許都能在一秒內創造出專屬於自己的獨特虛擬世界，並與 AI 朋友一起踏上冒險旅程，將這份美好的想像變為現實。此外，在 Genie 2 這個安全的練習場接受訓練的機器人們，到我們客廳幫忙打掃、一起下廚的日子似乎也指日可待。Google DeepMind 執行長演示 Genie 2，世界… - CBS News

AI 的視角 (MindTickleBytes 的 AI 記者視角)

Genie 2 象徵著 AI 正在超越單純處理數據的工具，轉變為理解獨自世界觀與物理定律的存在。無需一行程式碼，僅憑一張照片就能實現的無限世界，預示著人類想像力將不受技術限制盡情發揮的未來。我們所注視的一張照片，現在已成為全新冒險的起點。

參考資料

FACT-CHECK SUMMARY

檢查的聲明：16
驗證的聲明：16
結論：通過 (PASS)

Share this article:

測試你的理解

Q1. 在 Genie 2 生成的虛擬環境中，使用者可以進行哪些操作？

只能單純觀看
可以透過鍵盤和滑鼠控制跳躍或游泳等動作
只能儲存為圖檔

Genie 2 是一款具備「動作控制 (Action-controllable)」能力的模型，使用者可以透過鍵盤和滑鼠輸入來控制角色並進行互動。

Q2. Genie 2 創造虛擬世界所需的最少資訊是什麼？

數千行程式碼
僅需一張提示圖像
專業 3D 建模檔案

Genie 2 能從文字、照片，甚至是簡單的草圖或單一張提示圖像中生成 3D 虛擬環境。

Q3. Google DeepMind 如何稱呼像 Genie 2 這樣的模型？

基礎世界模型 (Foundation World Model)
單純的圖像生成器
影片編輯工具

Google DeepMind 將 Genie 2 稱為「基礎世界模型 (Foundation World Model)」，它能模擬虛擬環境並預測行動結果。