想像即現實的虛擬世界,Google「Genie 3」所描繪的未來

根據使用者輸入的文字即時生成的華麗且精緻的虛擬城市樣貌
AI Summary

Google DeepMind 發佈的「Genie 3」是一款創新 AI 模型,能僅根據文字描述,即時生成可讓使用者直接操作與探索的高畫質互動式虛擬環境。

請想像一下。 您坐在電腦前,輸入「給我看一個下著雨、賽博龐克風格的未來城市」。那一刻,螢幕上出現了一個霓虹燈閃爍、大雨滂沱的精緻城市。這不只是在播放影片。您可以移動滑鼠穿梭於巷弄之間,並用鍵盤探索建築內部。無論您走到哪裡,AI 都會即時生成新的路徑與風景。

這已不再是科幻電影中遙遠的故事。這是 Google DeepMind 全新公開的人工智慧模型 Genie 3 正在繪製的現實圖景 Genie 3 — Google DeepMind

為什麼這項技術值得關注?

到目前為止,我們接觸到的「生成式 AI」主要處於撰寫文章、繪畫或製作短片的水平。但 Genie 3 則完全不同。因為它超越了單純的「影片製造機」,而是一個能理解並模擬該世界規則的「世界模型 (World Model)」 [Genie 3:革命性的 AI 世界模型 互動式即時…](https://genie3.net/)。

這裡所謂「世界模型」,簡單來說就是指理解並預測世界的物理定律與因果關係的 AI 結構。就像小孩透過投球親身體會重力定律一樣,這意味著 AI 正在自行掌握虛擬世界的邏輯。當這項技術正式引入我們的生活時,會帶來什麼樣的變化呢?

  1. 遊戲的界線將會瓦解:目前的遊戲只能在開發者預先設計好的路徑上活動。但現在,玩家可以享受根據個人意願即時生成無限地形與故事的遊戲。這是一個當被問到「那座山的背後有什麼?」時,AI 能即時創造出世界並給出答案的時代。
  2. 訓練與模擬的革命:在自動駕駛汽車或機器人進入真實且危險的道路之前,可以先在 Genie 3 創造的精緻虛擬世界中進行數萬次的預演 為什麼 Genie 3 說明了 AI 「世界模型」是通向… 的道路。因為可以隨意虛擬創造出豪雨傾盆或突然出現障礙物等極端狀況,讓其安全地進行學習。
  3. 人人皆能成為創作者的世界:無需學習複雜的 3D 圖形技術或程式碼。只需一句話,就能佈置專屬自己的虛擬實境 (VR) 空間並邀請朋友。想像力即是技術。

輕鬆理解:Genie 3 是如何運作的?

如果用一句話定義 Genie 3,那就是「用文字控制的即時虛擬世界生成器」 Genie 3:世界模型的新領域 (Google DeepMind)

1. 從文字開始的創造 (Prompt-to-World)

當使用者輸入自然語言(我們平時使用的日常用語)進行說明時,AI 會掌握該脈絡並立即建構虛擬環境 Google DeepMind 揭曉 Genie 3,一款全新的 AI 世界模型 | LinkedIn。比喻來說,就像是向 AI 這位全能的建築師要求「請在茂密的森林中建造一座神祕的城堡」,它就會將從樹木粗糙的質感,到城牆上的青苔都詳細描繪的環境,呈現在您的眼前。

2. 像遊戲般自由的互動 (Interactivity)

Genie 3 最令人驚訝的一點在於其「互動式 (Interactive)」的特性。如果說現有的 AI 影片模型生成的影像只能單純欣賞,那麼 Genie 3 則可以讓您使用滑鼠與鍵盤在其中親自走動 Google DeepMind 的 Genie 3:互動式 AI 的新時代… | LinkedIn。當使用者向左轉頭或向前行進時,AI 會配合該動作即時計算並繪製出新的路徑 Project Genie:AI 世界模型現已提供給美國的 Ultra 使用者

3. 如電影般的流暢度與不變的世界 (Consistency)

Genie 3 以每秒 24 幀 (24 fps) 的速度持續生成 720p 解析度(高畫質影片標準之一)的影像 Genie 3:世界模型的新領域 (Google DeepMind)。這與我們在電影院看電影時感受到的流暢動作處於同一水準。此外,它還展現了即便持續探索幾分鐘,先前經過的地方樣貌也不會改變的「一致性」 Google DeepMind 揭曉 Genie 3,一款全新的 AI 世界模型 | LinkedIn。即使再次回頭,城牆依然屹立在剛才的位置,這是決定虛擬世界沉浸感的極重要因素。

現況:我們現在發展到哪裡了?

Google 為了驗證 Genie 3 的實際性能,公開了名為「Project Genie」的雛形。目前美國的「Google AI Ultra」使用者可以透過這項功能親自創建並探索專屬自己的世界。甚至還能將現有的世界進行全新的「混音 (Remix)」,轉變為完全不同的環境,進行各種創意活動 Project Genie:AI 世界模型現已提供給美國的 Ultra 使用者

專家們認為,像 Genie 3 這樣的世界模型,將不僅僅是有趣的玩具,更是通往通用人工智慧 (AGI,像人類一樣能自主處理各種事務的人工智慧) 的核心鑰匙。因為現有的語言模型 (LLM) 是透過書籍與網路文字學習世界,而世界模型則是透過虛擬世界中的直接互動,親身體驗「原因與結果」,學習世界是如何運行的 太神奇了!Genie 3:世界模型的新領域 · AI 自動化…

未來:我們將面對的新景象

當然,Genie 3 目前尚不完美。目前僅能維持數分鐘短暫探索的一致性,但隨著技術發展,未來將能生成並管理持續數天、數月的龐大世界。

此外,隨著 Runway 的「Gen-3 Alpha」等競爭模型的出現,世界模型市場正變得異常火熱 [Runway 研究 介紹 Gen-3 Alpha:一個新的前沿…](https://runwayml.com/research/introducing-gen-3-alpha)。這些競爭將進一步推動在佩戴虛擬實境裝置時,能即時提供與現實難以區分的超高畫質環境的時代提早到來 為什麼 Genie 3 說明了 AI 「世界模型」是通向… 的道路

在不久的將來,我們早晨起床時或許會對人工智慧這樣說:「今天我想在 18 世紀的法國巴黎街頭散步。希望轉角處有一家飄著我喜歡的溫暖咖啡香的咖啡館。」而 Genie 3 將會立即為您將那個專屬於您的世界變為現實。

AI 的視角

Genie 3 象徵著人工智慧已從單純「觀察並總結」世界的存在,進化為能直接「建構並模擬」世界的存在。到目前為止,人類一直生活在物理限制之中,但世界模型的發展將透過即時實體化我們所能想像的所有空間,無限擴展人類的經驗與創造力。這不僅僅是技術的進步,更是改變人類體驗世界方式的巨大轉折點。

參考資料

  1. Genie 3 — Google DeepMind
  2. [Genie 3:革命性的 AI 世界模型 互動式即時…](https://genie3.net/)
  3. Genie 3:世界模型的新領域 (Google DeepMind)
  4. [Google DeepMind 揭曉 Genie 3,一款全新的 AI 世界模型 LinkedIn](https://www.linkedin.com/posts/peerasakc_genie-3-a-new-frontier-for-world-models-activity-7361065348663578624-tHlt)
  5. Project Genie:AI 世界模型現已提供給美國的 Ultra 使用者
  6. [Dynamic View Google Deepmind TikTok](https://www.tiktok.com/discover/dynamic-view-google-deepmind)
  7. Google deepmind.google/discover/blog/genie-3-a-new-frontier…
  8. 太神奇了!Genie 3:世界模型的新領域 · AI 自動化…
  9. [Runway 研究 介紹 Gen-3 Alpha:一個新的前沿…](https://runwayml.com/research/introducing-gen-3-alpha)
  10. [Google DeepMind 的 Genie 3:互動式 AI 的新時代… LinkedIn](https://www.linkedin.com/posts/amit-g-7890a1141_aiforeveryong-gemini-genie3-activity-7358930914736828417-aRfe)
  11. 為什麼 Genie 3 說明了 AI 「世界模型」是通向… 的道路
  12. Gemini 3:介紹來自 Google 的最新 Gemini AI 模型

事實查核摘要

  • 已檢查主張數:12
  • 已驗證主張數:12
  • 結論:通過 (PASS)
測試你的理解
Q1. Genie 3 生成的虛擬環境即時播放速度為每秒幾幀 (fps)?
  • 12 fps
  • 24 fps
  • 60 fps
Genie 3 支援每秒 24 幀 (24 fps) 的即時渲染,提供流暢的畫面。
Q2. 探索透過 Genie 3 生成的世界時,使用的是哪種輸入方式?
  • 僅憑思考控制
  • 滑鼠與鍵盤
  • 特殊 VR 套裝
使用者在透過文字創建世界後,可以像一般遊戲一樣,使用滑鼠與鍵盤進行即時移動與互動。
Q3. 目前可供直接體驗 Genie 3 技術的雛形產品名稱為何?
  • Project Genie
  • 제미나이 익스플로러
  • 월드 빌더
Google 透過名為『Project Genie』的雛形,向美國境內的 Google AI Ultra 使用者公開了這項技術。