AI 现在也能看到“时间”了？谷歌 DeepMind 打造的四维视觉之眼 D4RT

AI Summary

谷歌 DeepMind 公开的 D4RT 是一种仅凭一段视频即可同时重建 3D 空间和时间流逝的四维视觉技术。

想象一下，你正坐在阳光明媚的咖啡馆里，看着朋友递过来的咖啡杯。你的眼睛不仅是在拍摄静止的照片。杯子向你靠近的速度（时间）、在桌面上的立体位置（3D 空间），甚至是杯中咖啡晃动的细微动作，都能实时掌握。这种我们认为理所当然的能力，对 AI 来说曾是像攀登珠穆朗玛峰一样困难的课题。

至今为止，AI 在识别照片中的物体或将静止物体制作成 3D 模型方面表现出色。然而，整体理解我们生活的这个“运动的世界”，并且是随着时间流逝的立体理解，则是另一个维度的挑战。简单来说，如果之前的 AI 是“摄影师”，那么现在我们需要“电影导演”的眼睛。

2026 年 1 月，谷歌 DeepMind (Google DeepMind) 公开了解决这一难题的创新钥匙。这便是教导 AI 像人类一样观察和感受四维世界的新模型——D4RT (DeepMind 4D Reasoning Toolkit)。来源标题来源标题

为什么这对我们很重要？

我们通常提到 3D 就会想到立体空间。即拥有长、宽、高的世界。如果再加入“时间”这一宝贵的维度，才真正构成了我们生活的现实世界——4D。D4RT 不仅是重建空间，还开始“理解”该空间内的物体随时间如何变化和运动。来源标题

当这项技术融入我们的日常生活，会带来哪些惊人的变化呢？

灵敏的家用机器人：机器人在客厅移动时，其认知水平远超仅仅知道“这里有一面墙”。它能像人类一样自然地判断：“孩子们正从那边以这个速度跑过来，所以我应该在 1.5 秒后停在这里，以免碰撞。” 来源标题
比现实更真实的增强现实 (AR)：戴着 AR 眼镜走在路上时，可以看到虚拟的可爱角色在真实行驶的汽车或行人之间穿梭躲闪。因为能同时掌握空间和时间，虚拟与现实的界限将彻底消失。来源标题
自动驾驶的量子飞跃：通过在四维空间掌握复杂路口其他车辆或行人的未来轨迹，实现更安全、更平稳的驾驶。即使面对突发状况，也能像熟练的驾驶员一样应对。来源标题

简单理解：D4RT 是如何观察世界的？

D4RT 最大的特点是它是一个能同时处理多项复杂任务的“集成型 AI”。过去，测量“深度”的 AI、追踪“运动”的 AI 和计算“相机位置”的 AI 都是各自独立运作的。但 D4RT 在一个 Transformer 模型中同时处理所有这些信息。这里的 Transformer 是指通过把握视频中多个要素之间的关系来阅读语境的聪明大脑结构。来源标题来源标题

为了便于理解，我们打个比方：

[类比：舞台灯光导演] 如果之前的 AI 是多名分别观察每位演员并汇报的“初级助理导演”，那么 D4RT 就像是一位纵览整个舞台，一眼洞悉并指挥所有演员位置、动作及灯光角度的“资深灯光导演”。

D4RT 仅凭一段普通视频就能同时提取以下高级信息：

深度 (Depth)：每个物体距离我有多远。
时空对应关系 (Spatio-temporal correspondence)：随着时间流逝，始终不丢掉“那个苹果”就是“那个苹果”的追踪毅力。
相机参数 (Camera parameters)：关于正在拍摄视频的相机以何种角度、多快速度移动的信息。来源标题来源标题

“查询机制”：精准筛选所需信息

如果我们要对每秒 30 帧的高清视频逐一进行精密分析，计算机将会因产生巨大热量而苦不堪言。为了解决这个问题，D4RT 引入了一项名为“查询 (Querying) 机制”的聪明技术。来源标题

类比来说，它不是打开整个暗室的灯，而是只对感兴趣的物体打出“智能手电筒”，提出“那个杯子 2 秒后会移动到哪里？”这样的问题 (Query) 并获得答案。得益于此，在大幅减少计算量的同时，能够非常快速且准确地重建运动中的世界。来源标题

现状：进展如何？

谷歌 DeepMind 的研究员 Guillaume Le Moing 和 Mehdi S. M. Sajjadi 强调，D4RT 不仅是观察，更是将人类的“记忆与预测”功能植入到了 AI 中。来源标题

目前，D4RT 在复杂背景和快速运动物体交织的环境中也展现出了惊人的性能。来源标题 DeepMind 正在通过这项技术使 AI 超越单纯的记录设备，进化为能按世界原本生动面貌去理解世界的“真正的见证者”。来源标题

当然，挑战依然存在。目前的计算量对于在普通智能手机上运行来说仍然过大。研究团队表示，未来的目标是让这一复杂的计算过程变得更轻量化，以便让所有人都能使用。来源标题

未来：四维之眼将改变的世界

D4RT 的出现意味着 AI 视觉技术的新时代，即“四维全感知 (Full Perception)”时代的开启。来源标题

在不久的将来，我们使用的智能手机相机可能不仅是拍照工具，还会成为将我们看到的现实中所有动态运动实时转化为 3D 数据的魔杖。此外，辅助我们生活的机器人将在人类空间中更安全、更精细地与我们共同呼吸和活动。来源标题

谷歌 DeepMind 展示的这双“四维之眼”将成为 AI 更深层次理解我们、更准确把握我们所处世界的决定性里程碑。来源标题

AI 的视角：MindTickleBytes AI 记者的观点

曾几何时，对 AI 而言，世界只不过是“一连串静止的照片”。但 D4RT 找到了流淌在这些照片之间的“时间线”。这表明 AI 已进化为一种“主动智能”，能够经验性地学习现实世界的物理定律，并为接下来发生的事情做好准备。AI 像我们一样观察和感受世界的日子似乎近在咫尺。

参考资料

D4RT: Teaching AI to see the world in four dimensions (https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/)
D4RT (https://d4rt-paper.github.io/)
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time (https://arxiv.org/abs/2512.08924)
D4RT: Teaching AI to see the world in four dimensions (LinkedIn) (https://www.linkedin.com/posts/googledeepmind_d4rt-teaching-ai-to-see-the-world-in-four-activity-7420119403314454529-RZv1)
D4RT: Teaching AI to see the world in four dimensions (Dev.to) (https://dev.to/minimal-architect/d4rt-teaching-ai-to-see-the-world-in-four-dimensions-2k4n)
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time (PDF) (https://arxiv.org/pdf/2512.08924)
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time (HTML) (https://arxiv.org/html/2512.08924v1)
D4RT: Teaching AI to see the world in four dimensions (Technical Analysis) (https://dev.to/minimal-architect/d4rt-teaching-ai-to-see-the-world-in-four-dimensions-35fg)
Google DeepMind Launches D4RT AI Model for Real-Time 4D Reconstruction (https://www.newsbreak.com/winbuzzer-com-302470011/4458781235094-google-deepmind-launches-d4rt-ai-model-for-real-time-4d-reconstruction)
Google Deepmind’s D4RT model aims to give robots and AR devices more human-like spatial awareness (https://the-decoder.com/google-deepminds-d4rt-model-aims-to-give-robots-and-ar-devices-more-human-like-spatial-awareness/)
The Wide Perspective of Silicon-Based Life: Google DeepMind launches D4RT (https://news.aibase.com/news/24896)

Share this article:

测试你的理解

Q1. D4RT 所理解的“四维 (4D)”意味着什么？

虚拟现实空间
三维空间与时间的结合
超高清 8K 分辨率

D4RT 通过在三维空间信息中加入“时间”维度来理解运动的世界。

Q2. D4RT 模型的核心架构是什么？

Transformer
循环神经网络 (RNN)
卷积神经网络 (CNN)

D4RT 使用统一的 Transformer 结构来同时计算深度和时空对应关系等信息。

Q3. 作为 D4RT 的特征之一，哪项技术使其无需对每帧进行复杂的解码？

多核处理
查询 (Querying) 机制
云计算

D4RT 通过全新的查询机制在减少庞大计算量的同时，高效地重建场景。