AI 現在也能看到「時間」了？Google DeepMind 打造的四維視覺之眼 D4RT

AI Summary

Google DeepMind 公開的 D4RT 是一項四維視覺技術，僅憑一段影片即可同時重建三維空間與時間流。

想像一下，您正坐在陽光灑落的咖啡廳，看著朋友遞過來的咖啡杯。您的眼睛並非只是在拍一張靜止的照片，而是能即時掌握杯子靠近的速度（時間）、在桌上的立體位置（三維空間），甚至是杯中咖啡晃動的細微變化。我們視為理所當然的這項能力，對 AI 來說卻曾是像攀登聖母峰一樣艱難的挑戰。

到目前為止， AI 在識別照片中的物體或將靜止物體製作成 3D 模型方面表現優異。然而，要通盤理解我們生活的這個「運動中的世界」，而且是根據時間流逝進行立體理解，則是完全不同層次的問題。簡單來說，如果之前的 AI 是「攝影師」，那麼現在則需要「電影導演」的視角。

2026 年 1 月，Google DeepMind 公開了解決這項難題的創新鑰匙，即教導 AI 像人類一樣觀察並感受四維世界的全新模型 —— D4RT (DeepMind 4D Reasoning Toolkit)。來源標題來源標題

這對我們為什麼重要？

我們通常提到 3D 會聯想到立體空間，即一個有長、寬、高的世界。若再加上「時間」這個寶貴的維度，才真正構成我們生活的四維（4D）世界。D4RT 不僅僅是重建空間，它還開始「理解」該空間中的物體如何隨時間變化與運動。來源標題

當這項技術融入我們的日常生活，會帶來哪些驚人的變化？

機靈的家用機器人：當機器人在客廳移動時，它不僅僅知道「牆壁在這裡」，還能像人類一樣自然地判斷：「孩子們正從那邊以這個速度跑過來，所以我應該在 1.5 秒後停在這裡才不會撞到。」來源標題
比現實更真實的增強實境 (AR)：戴上 AR 眼鏡走在路上時，您可以看到虛擬的可愛角色在真實移動的車輛或行人之間靈巧地穿梭跳躍。因為能同時掌握空間與時間，虛擬與現實的界限將被徹底打破。來源標題
自動駕駛的量子躍遷：透過在四維空間掌握複雜路口其他車輛或行人的未來軌跡，實現更安全、更順暢的駕駛。即使遇到突發狀況，也能像經驗豐富的駕駛員一樣應對。來源標題

輕鬆理解：D4RT 如何觀察世界？

D4RT 的最大特色在於它是能同時處理多項複雜工作的 「整合型 AI」。以往，測量「深度」的 AI、追蹤「運動」的 AI 以及計算「相機位置」的 AI 都是各自獨立運作的。但 D4RT 在一個 Transformer 模型中同時處理所有這些資訊。這裡的 Transformer 指的是一種能透過掌握影像中各種元素之間的關係來閱讀上下文的聰明大腦結構。來源標題來源標題

為了幫助理解，我們來打個比方。

[類比：舞台上的燈光總監] 如果以前的 AI 是多名分別觀察每位演員並進行彙報的「新手助理導演」，那麼 D4RT 就像是一位俯瞰整個舞台、能一眼洞察並指揮所有演員位置、動作及燈光角度的 「資深燈光總監」。

D4RT 僅憑一段平凡的影片，就能同時提取出以下高級資訊：

深度 (Depth)：各個物體距離我有多遠。
時空對應關係 (Spatio-temporal correspondence)：即使時間流逝也能始終追蹤，不會弄丟「那顆蘋果」。
相機參數 (Camera parameters)：拍攝影片的相機正以什麼角度、多快的速度移動。來源標題來源標題

「查詢機制」：精準挑選所需資訊

如果要逐一精密分析每秒 30 影格的高畫質影片，電腦會因負荷過重而發熱。為了克服這個問題，D4RT 引入了聰明的 「查詢 (Querying) 機制」。來源標題

類比來說，這並非打開整個漆黑房間的燈，而是只對我感興趣的物體打出 「智慧手電筒」，拋出「那個杯子 2 秒後會移動到哪裡？」的詢問（Query）並獲得答案。得益於此，在大幅減少運算量的同時，還能非常快速且準確地重建運動中的世界。來源標題

現況：進展到哪裡了？

Google DeepMind 的研究員 Guillaume Le Moing 與 Mehdi S. M. Sajjadi 強調，D4RT 不僅僅是觀察，更是將人類的 「記憶與預測」 功能植入 AI。來源標題

目前 D4RT 在複雜背景與快速運動物體交織的環境中展現出驚人的性能。來源標題 DeepMind 正透過這項技術，讓 AI 超越單純的記錄裝置，進化為能如實理解世界原貌的「真正目擊者」。來源標題

當然也面臨挑戰，例如在一般智慧型手機上運作仍需龐大的運算能力。研究團隊表示，未來的目標是讓這些複雜的運算過程變得更輕量化，以便人人都能使用。來源標題

展望未來：四維之眼將改變的世界

D4RT 的出現意味著 AI 視覺技術進入了全新時代，即 「四維全感知 (Full Perception)」 時代。來源標題

在不久的將來，我們使用的手機相機可能不再只是拍照工具，而是能將現實中所有動態變化即時轉化為 3D 數據的魔杖。此外，輔助我們生活的機器人將能在人類空間中更安全、更精確地共存與活動。來源標題

Google DeepMind 展示的這雙「四維之眼」，將成為 AI 更深刻理解人類並精準掌握我們所處世界的決定性里程碑。來源標題

AI 的觀點：MindTickleBytes AI 記者的視角

過去對 AI 而言，世界不過是「一連串靜止照片」。但 D4RT 找到了流淌在這些照片之間的「時間線」。這顯示出 AI 已進化為能經驗性地學習現實世界的物理定律，並能為即將發生的事預做準備的「主動式智慧」。看來 AI 能像我們一樣觀察並感受世界的日子已指日可待。

參考資料

Share this article:

測試你的理解

Q1. D4RT 所理解的「四維 (4D)」代表什麼意思？

虛擬實境空間
三維空間與時間的結合
超高畫質 8K 解析度

D4RT 透過在三維空間資訊中加入「時間」維度來理解運動中的世界。

Q2. D4RT 模型的核心架構是什麼？

Transformer (變換器)
循環神經網路 (RNN)
卷積神經網路 (CNN)

D4RT 使用整合的 Transformer 結構，同時計算深度與時空對應關係。

Q3. 作為 D4RT 的特徵之一，哪項技術讓其無需在每一影格都經過複雜解碼？

多核心處理
查詢 (Querying) 機制
雲端運算

D4RT 透過新型查詢機制，在減少龐大運算量的同時，有效率地重建場景。