一張照片就能進入遊戲世界？Google DeepMind 展現的新魔法「Genie 2」

AI Summary

Google DeepMind 公開的「Genie 2」是一項驚人的 AI 技術，只要輸入一張圖片，就能即時生成可以跳躍、游泳並進行互動的交互式 3D 環境。

想像一下。 您向 AI 展示了一張昨天在旅途中拍攝的精美森林照片。片刻之後，照片中靜止的樹木開始隨風搖曳，小溪潺潺流動，一切都鮮活了起來。這不僅僅是影片播放，您可以按下鍵盤上的箭頭鍵，親自在那片森林中漫步，或者縱身跳上眼前的岩石，甚至躍入清涼的水中游泳。

昨天拍下的「回憶」，今天成了您可以盡情探索的「遊樂場」。除了欣賞畫作，更能直接走入畫中世界，這種驚人的體驗正逐漸成為現實。2024 年 12 月 4 日，Google DeepMind 正式發表了全新的 AI 模型 「Genie 2」，它能基於一張照片，在瞬間創造出可供直接遊玩的 3D 虛擬環境 [Genie 2: A Large-scale Foundation World Model - GIGAZINE]。

為什麼這很重要？

到目前為止，我們接觸到的生成式 AI 主要集中在撰寫像模像樣的文章或繪製華麗的圖片。但「Genie 2」更進一步，開啟了 「世界模型 (World Model)」 的新篇章。簡單來說，世界模型是指 「能自主理解並模擬世界運作原理的 AI 模型」 [Genie 2: A large-scale foundation world model — Google DeepMind]。

這項技術將為我們的生活和產業帶來革命性的變化。

遊戲製作的民主化：過去需要數百名開發人員熬夜奮鬥多年才能打造的精緻遊戲 3D 世界，現在 AI 只要看一眼照片就能快速生成。這意味著每個人都能擁有並分享屬於自己的虛擬世界 [Genie 2: A large-scale foundation world model - simonwillison.net]。
AI 的「物理課」：Genie 2 不僅僅是在模仿圖像。它自主學習了「東西丟出去會往下掉」或「撞到堅硬的牆壁會停下來」等物理定律 (Physics)。這對於即將在現實世界活動的機器人來說，是讓它們在現實中闖禍之前，先在虛擬空間安全接受「學前教育」的必備技術 [Google Genie 2 (DeepMind Genie 2) is a large “World Model”…]。
無限制的互動：與只能按照既定劇本運行的傳統遊戲不同，使用者可以體驗到對突發行為做出即時反應並產生變化的「活生生的世界」。每次遊玩都能展開新的風景和事件 [Genie 2: The Next-Generation Foundation Model for 3D Worlds]。

輕鬆理解：Genie 2 是如何運作的？

如果用比喻來說，Genie 2 可以被視為 「AI 自主即時運行的遊戲引擎」 [Genie 2: A large-scale foundation world model - simonwillison.net]。究竟這種魔法般的事情是如何發生的？讓我們透過兩個核心重點來探討。

1. 擁有「想像之眼」的 AI

回想一下孩子們玩玩具車的時候。孩子們不需要學習引擎原理或重力加速度，就知道車子撞到牆壁會伴隨著「砰！」的一聲停下來。這是因為他們透過無數次的觀察，親身體會了世界的運作方式。

Genie 2 的學習方式也與此類似。這個模型透過觀看海量的影片數據來學習世界 [Genie 2: A large-scale foundation world model — Google DeepMind]。即使沒有特別的答案標籤 (Label)，它也能透過影片自行領悟「人跳起來會畫出這樣的曲線」、「進入水中動作會變慢」等規律。因此，只要看一眼照片，它就能生動地「想像」出隱藏在其後的 3D 空間和物理反應 [Genie: Generative Interactive Environments]。

2. 從跳躍到游泳，隨心所欲操控

Genie 2 創造的世界不僅僅是用眼睛看的電影。它最大的特徵是使用者可以親自操控角色 (Action-controllable)。當使用者下達「向左走」、「跳起來」等指令時，AI 會立即計算出該動作在虛擬世界中會產生的結果（例如：蹬地騰空的樣子、著地時的晃動等），並顯示在螢幕上 [Genie 2: A large-scale foundation world model — Google DeepMind]。

例如，輸入一張陡峭岩壁的照片，Genie 2 就會將該地形重構成 3D，並即時生成角色在上面艱難行走或避開障礙物的複雜動作 [Genie 2: A large-scale foundation world model — Google DeepMind]。

3. 比起「Genie 1」聰明了多少？

前身模型「Genie 1」是一個擁有約 110 億個參數（Parameter，相當於 AI 的腦細胞等學習單位）的模型，主要水平在於生成類似 2D 遊戲的世界 [Genie: Generative Interactive Environments]。相比之下，這次公開的 Genie 2 遠遠超越了它，能隨心所欲地生成 完整的 3D 虛擬世界。專家們評價這在技術上實現了「相當大的跨越 (Significant leap forward)」 [Google announces Genie 2: A large-scale foundation world model]。

現狀：我們什麼時候可以用到？

由 Jack Parker-Holder 和技術負責人 Stephen Spencer 帶領的研究團隊打造的 Genie 2，目前是全球 AI 業界的熱門話題 [Genie 2: A Large-scale Foundation World Model - aifuturethinkers.com]。

不過，遺憾的是，目前它還不是您可以立刻在智慧型手機上下載執行的「App」形式。目前 Genie 2 作為 Google DeepMind 的最新研究成果，正處於證明 AI 能多麼精確地理解並模擬我們生活的世界的階段 [Genie 2: A large-scale foundation world model - simonwillison.net]。

儘管如此，Genie 2 所展現的物理一致性 (Physical consistency)，即物體碰撞時的反應或視角改變時背景自然變化的樣子，被認為漂亮地超越了既有生成式 AI 的限制 [Google Genie 2 (DeepMind Genie 2) is a large “World Model”…]。

未來會如何發展？

Google DeepMind 強調，Genie 2 脫離了早期世界模型侷限於狹窄領域的限制，具備了更一般、更廣泛的通用性 [Google announces Genie 2: A large-scale foundation world model]。

如果這項技術正式來到我們身邊，會發生什麼事呢？

專屬自己的開放世界遊戲：您小時候畫的藏寶島畫作或昨天拍的社區小巷照片，都能直接變成遊戲關卡，邀請朋友們一起冒險。
完美的訓練模擬：在自動駕駛汽車或外送無人機進入複雜的現實世界之前，它們可以在 AI 創造的虛擬世界中進行數千萬次的模擬行駛，變得更加安全。
沉浸式敘事：讀者可以直接走進電影或小說的場景中，與主角交談並解決事件，這類新型態的內容將層出不窮。

Genie 2 不僅僅是一項技術成就，更正逐漸成為將人類想像力轉化為充滿物理規律的數位現實的「魔法神燈」。

MindTickleBytes 的 AI 記者觀點

Genie 2 的出現意味著 AI 現在除了「文字」和「平面圖像」，已經開始理解「立體空間」和「隨時間產生的變化」。AI 正在解讀我們不經意間拍下的照片中所蘊含的三維深度和重量。

「簡單比喻」，Genie 2 不僅僅是一個描繪風景的畫家，它甚至承擔了在風景中設計重力和摩擦力的「創造者」角色。不久之後， AI 認識現實世界並與之互動的能力將會和我們一樣生動。Genie 2 開啟的虛擬世界大門背後隱藏著怎樣驚人的風景，光是想像就讓人心潮澎湃。

參考資料

FACT-CHECK SUMMARY

Claims checked: 22
Claims verified: 22
Verdict: PASS

Share this article:

測試你的理解

Q1. Genie 2 最核心的特徵是什麼？

單純生成高解析度照片。
將一張照片轉換為交互式的 3D 虛擬世界。
將文本轉換為音訊檔案。

Genie 2 是一個接收單一圖像輸入，並生成一個讓使用者能親自操控與探索的 3D 環境的模型。

Q2. 下列何者不是 Genie 2 在虛擬世界中可以實現的動作？

跳躍與游泳
與物體互動
無視現實世界的物理定律

Genie 2 的設計旨在模擬物理上連貫的世界，包含跳躍、游泳及物體間的碰撞等。

Q3. Genie 2 的前身『Genie 1』主要生成什麼形式的世界？

精緻的 3D 世界
基於 2D 的世界
基於文本的小說世界

Genie 1 引入了生成各種 2D 世界的方式，而 Genie 2 將其擴展到 3D，大幅提升了通用性。