只用一張照片就能創造「可玩」的世界?Google DeepMind 的魔法「Genie 2」

形象化展現一張照片變為立體 3D 遊戲世界過程的圖片
AI Summary

Google DeepMind 公開的「Genie 2」是一款創新的 AI 模型,能僅憑一張圖像即刻生成可供我們直接操作的無限 3D 虛擬世界。

您是否曾想像過走進小時候在畫紙上畫的城堡並在其中盡情玩耍?或者看著雜誌上壯麗的阿爾卑斯山脈照片,好奇「那座山峰背後會有什麼樣的村莊?」並想直接走進照片中?這些曾經只出現在科幻電影中的魔幻想像,如今正成為現實。

今天 MindTickleBytes 要介紹的主角是 Google DeepMind 雄心勃勃公開的次世代 AI —— Genie 2。這款人工智慧不僅僅是美化照片或製作影片,它能完整創造出一個讓我們可以像主角一樣進入、移動並體驗的「虛擬世界」。 Genie 2: A large-scale foundation world model — Google DeepMind

這項創新技術將如何改變我們的生活,以及為什麼全球 IT 業界都對此感到瘋狂,讓我們一起輕鬆有趣地深入了解。

為什麼這很重要?

請想像一下。 我們未來將使用的機器人家事助手,為了要在廚房幫忙洗碗,需要經過數萬次、甚至數億次的練習。但在現實世界中練習,如果機器人打破了昂貴的盤子或撞到牆壁損壞,其成本和風險將不容小覷吧?

簡單來說, Genie 2 為機器人提供了完美且安全的「數位訓練場」Google DeepMind CEO demonstrates Genie 2, world-building AI model that … 這就好比飛行員在實際飛上天空前,先在「飛行模擬器」中進行練習。當 Genie 2 瞬間生成一個與現實世界一模一樣的 3D 環境時,機器人可以在其中跌倒千萬次也不會受傷,並安全地學習如何與世界互動。 Genie 2: A large-scale foundation world model — Google DeepMind

此外,遊戲開發者現在只需一張照片,即可無限生成新的關卡,而無需耗費數月進行複雜的編碼工作。 Google Genie 2 Promises AI-Generated Interactive Worlds … - TechPowerUp 我們正站在想像力即刻化為現實的時代門檻上。

深入淺出:Genie 2 的三項魔法

1. 只需一張照片就足夠(單一提示圖像)

Genie 2 就像神燈精靈一樣,能瞬間變出我們想要的東西。只要給 AI 一段文字描述、簡單的草圖,甚至是手機拍的一張照片,它就能生成出完美呈現該氛圍與特徵的立體 3D 環境。 Genie (world model) - Wikipedia Genie 2: How Google DeepMind’s AI is Creating Infinite …

請想像一下。 如果將孩子親手畫的太空船圖片給 Genie 2 看,AI 不僅是把畫變漂亮,還會設計出一個可以走進太空船內部、觸摸駕駛艙的「空間」。 Genie 2, Google DeepMind가 개발한 대규모 기반 세계 모델

2. 我們可以直接操作(互動)

如果說現有 AI 製作的影片只是讓我們邊吃爆米花邊看的「電影」,那麼 Genie 2 創造的世界就像是讓我們親自擔任主角移動的「電動遊戲」。 Google DeepMind’s Genie 2: Revolutionizing Interactive 3D Worlds with AI

人類或 AI 代理人 (AI Agent) 可以使用鍵盤和滑鼠輸入,在這個生成的環境中自由探索。 Genie 2: A large-scale foundation world model — Google DeepMind 讓角色向前走、轉頭仰望天空等所有操作,都會像真實遊戲一樣即時反映。 Genie 2, Google DeepMind가 개발한 대규모 기반 세계 모델

3. 「剛才看到的那棵樹,還在那裡!」(空間記憶力)

最令人驚訝的是,Genie 2 擁有出色的「空間記憶力 (Spatial memory)」。一般的圖像生成 AI 往往具有「金魚腦」,容易忘記畫面外的物體。但 Genie 2 甚至能精確記住現在看不見的背後風景。 Genie 2: A large-scale foundation world model

就像站在山頂看著雲朵,然後轉身查看剛才看到的紅屋頂房子,再轉回前方時,剛才那朵雲依然飄浮在原處。 Genie 2: A large-scale foundation world model 這有力地證明了 AI 不僅是在畫簡單的圖像,更深入理解了我們所居住世界的物理結構。

當前現況:從 2D 到 3D 的巨大跨越

事實上,在 Genie 2 之前就有一個名為「Genie」的模型。但 Genie 1 主要是在像超級瑪利歐那樣的 2D 平面環境中運作。 Genie 2: The Next-Generation Foundation Model for 3D Worlds

這次公開的 Genie 2 則大幅超越了前代,實現了更加生動且具沉浸感的 3D 環境。 Genie 2: The Next-Generation Foundation Model for 3D Worlds Google DeepMind 執行長 Demis Hassabis 親自登上美國知名新聞節目《60 分鐘》(60 Minutes),演示了這項技術如何能飛躍性地提升機器人的智慧,吸引了全球目光。 Google DeepMind CEO demonstrates Genie 2, world-building AI model that … Genie 2: How Google DeepMind’s AI is Creating Infinite …

從技術上講,Genie 2 能理解並處理多達 256 種不同的動作 (actions),並基於能高效處理海量數據的框架運行。 GitHub - lucidrains/genie2-pytorch: Implementation of a …

未來將會如何?

Genie 2 邁出了第一步。研究團隊計畫進一步發展,使 Genie 2 創造的世界更具一致性,並遵循與現實相同的物理規律(如重力或摩擦力等)。 Google Genie 2 Promises AI-Generated Interactive Worlds … - TechPowerUp

在不久的將來,以下這些驚人的事情可能會成為我們的日常:

  • 個人專屬定製遊戲:以去年夏天和家人一起拍的旅行照片為背景,在一秒鐘內製作出只有我們家能享受的冒險遊戲。
  • 聰明機器人朋友的誕生:在 Genie 2 創造的虛擬家中練習過洗碗到洗衣服數千萬次的「資深」機器人被配送到我們家。
  • 生動的歷史課:不再是枯燥的教科書照片,而是將朝鮮時代的漢陽街道以 3D 呈現,讓我們直接走進那個時代並與歷史人物對話。 Genie 2: How Google DeepMind’s AI is Creating Infinite …

Genie 2 不僅是一項技術成果,更預告了一個「人類想像力能即時化為現實(雖然是虛擬的)」的新世界。 Genie 2 Revolutionizes AI with Advanced Foundation Model Capabilities

MindTickleBytes AI 記者的觀點

看到 Genie 2,我深深感受到 AI 正在從單純尋找資訊的助手,轉變為「理解並創造世界的設計者」。從一張照片開始的虛擬世界喚醒了機器人的智慧,並無限擴張我們的創意,這讓我對未來的世界充滿期待。現在,「百聞不如一見」這句話,是不是該改成「百聞不如一體驗」了呢?

參考資料

  1. Genie (world model) - Wikipedia
  2. Genie 2: A large-scale foundation world model — Google DeepMind
  3. Genie 2: A large-scale foundation world model
  4. Genie 2: The Next-Generation Foundation Model for 3D Worlds
  5. GitHub - lucidrains/genie2-pytorch: Implementation of a framework for Genie 2 in Pytorch
  6. Genie 2, Google DeepMind가 개발한 대규모 기반 세계 모델
  7. Genie 2 Revolutionizes AI with Advanced Foundation Model Capabilities
  8. Genie 2: How Google DeepMind’s AI is Creating Infinite …
  9. Google DeepMind CEO demonstrates Genie 2, world-building AI model that …
  10. Google Genie 2 Promises AI-Generated Interactive Worlds … - TechPowerUp
  11. Google DeepMind’s Genie 2: Revolutionizing Interactive 3D Worlds with AI

FACT-CHECK SUMMARY

  • Claims checked: 20
  • Claims verified: 20
  • Verdict: PASS
測試你的理解
Q1. Genie 2 生成 3D 環境所需的最少輸入值為何?
  • 複雜的程式碼
  • 僅需一張提示圖像
  • 數千小時的影片數據
Genie 2 僅憑一張照片(提示圖像)即可打造可互動的 3D 環境。
Q2. Genie 2 的功能中,能記住消失在視野中的部分並在返回時重新展現的能力名稱為何?
  • 無限渲染
  • 空間記憶力 (Spatial memory)
  • 像素還原
Genie 2 具備「空間記憶力」,能精確記住消失在視野中的部分,並在重新返回時將其實現。
Q3. Google DeepMind 執行長 Demis Hassabis 提到的 Genie 2 主要應用領域為何?
  • 智慧型手機應用程式開發
  • 天氣預報模擬
  • 機器人訓練
Demis Hassabis 解釋說,Genie 2 生成的 3D 環境可用於訓練機器人。