连开发者都不知道 AI 是如何运作的？“深度学习理论”的惊人演进

AI Summary

深度学习技术曾长期依赖经验和直觉发展，如今在物理学和数学的帮助下，正蜕变为能够完美解释其运作机制的“科学理论”。

朋友们，请先想象一下日常生活中的一个场景：早晨起床后，你对智能手机的语音助手说：“帮我总结一下今天下午的会议资料并发送邮件。”几秒钟后，一份像人写的一样完美的总结便送达了。或者在医院里，人工智能能够瞬间发现连资深医生都难以察觉的细小肿瘤。我们已经生活在一个人工智能像“魔法”一样运作的时代。

但这里有一个真正令人惊讶（甚至有点令人毛骨悚然）的事实：即使是创造出人工智能的天才工程师和科学家们，直到最近也无法明确解释 “为什么这个 AI 准确来说如此聪明且运作完美” 的根本数学原理。

与如今作为人工智能核心的深度学习（Deep Learning，基于模拟人脑结构的神经网络的机器学习技术）所取得的巨大实践成功相比，能够令人满意地解释其行为的理论发展在历史上一直处于滞后状态 [[深度学习信息瓶颈理论

OpenReview]](https://openreview.net/forum?id=ry_WPG-A-)。

打个比方，这就好比我们非常清楚烘焙世界上最美味蛋糕的“配方（经验）”，却在完全不了解烤箱内面粉和糖如何进行化学结合的“原理（理论）”的情况下，经营着一家巨大的面包店。

然而，现在的学术氛围正在发生彻底改变。全球顶尖的科学家们正聚集在一起，解剖人工智能的大脑，并开始正式建立能够透明解释其运作机制的 “深度学习科学理论 (A Scientific Theory of Deep Learning)”。今天，我们将用通俗易懂的语言来探讨为什么深度学习长期以来对科学家来说是个谜，以及最近这一秘密之门是如何被开启的。

为什么这很重要？ (Why It Matters)

你可能会想：“只要结果好不就行了吗？有必要连那些复杂的数学原理都搞清楚吗？”对于日常聊天机器人来说或许如此。但随着深度学习开始在我们的生活中做出至关重要的决定，了解原理就变成了“安全”与“信任”的问题。

如今的深度学习不再仅仅是玩具。在关乎人命的极其敏感的医疗领域，如癌细胞分类 (cancer cell classification)、病灶检测 (lesion detection)、器官分割 (organ segmentation) 以及图像质量提升等方面，它已经展现出超越人类的极具竞争力的结果 [深度学习 - 维基百科]。

此外，在通过在特定环境中采取行动以最大化奖励 (reward) 从而接受训练的强化学习 (Reinforcement learning) 中，深度学习也发挥着核心作用 [深度学习简介 - GeeksforGeeks]。简单来说，这就好比一个孩子在骑自行车时不断摔倒又站起，通过试错来寻找最佳平衡，人工智能也通过这种方式学习最佳行为。

当这种直接关乎生命的医疗诊断被做出，或者巨大的机器人和自动驾驶汽车在现实世界中采取行动 (Action) 时，仅仅依靠“因为它一直运作良好，所以明天可能也会运作良好”这种简单的经验性信念是远远不够的。只有拥有完善的数学理论支撑，我们才能科学地证明并保证人工智能在遇到意想不到的突发状况时绝不会犯下致命错误。也就是说，深度学习理论是将 AI 从“原理不明的危险黑匣子”变为“人类完全可控的工具”的唯一钥匙。

易懂解析 (The Explainer)：让科学家们感到困惑的深度学习悖论

那么，世界顶级计算机科学家们究竟觉得深度学习的哪些方面难以理解呢？要理解这一点，必须了解传统统计学几十年以来信奉的金科玉律——“偏差-方差权衡 (Bias-variance tradeoff)” [[深度学习理论

向量空间元素]](https://elonlit.com/scrivings/a-theory-of-deep-learning/)。

想象一下，你是镇上一家裁缝店的裁缝。你的任务是制作适合顾客（数据）体型的衣服（AI 模型）。

如果你太随便，做出一件异常宽松、四四方方的均码 T 恤会怎样？它不会让任何人穿起来好看。在统计学中，这种模型过于简单以至于无法准确捕捉数据的现象被称为 欠拟合 (Underfit)。
相反，如果你根据某个特定顾客身上细微的伤疤和倾斜 1 厘米的肩膀，制作出一套极度精准的定制西装会怎样？对那位顾客来说可能是 100 分，但其他任何新顾客都穿不了这件衣服。这种模型拥有过强的表达能力 (expressive)，以至于完全记住了过去的训练数据，但在面对新数据时却表现得一团糟的现象被称为 过拟合 (Overfit)。

在传统古典统计学习理论中，在“简单”与“复杂”之间找到适当的平衡是绝对的潜规则 [[深度学习理论

向量空间元素]](https://elonlit.com/scrivings/a-theory-of-deep-learning/)。

然而，“深度学习”这个家伙出现了，彻底粉碎了这一古老的数学规则。深层神经网络 (Deep neural networks) 拥有的参数 (parameters，人工智能内部可以微调的数以百亿计的音量旋钮般的数值) 数量，比需要学习的数据点数量多出几千倍甚至几万倍。这简直就是“过度参数化 (Overparameterized)”的状态 [[深度学习理论

向量空间元素]](https://elonlit.com/scrivings/a-theory-of-deep-learning/)。这就像是为了做出一份 100 分的考卷，把 100 万册百科全书全部背了下来。根据古典理论，这种愚蠢且复杂的 AI 肯定会陷入“过拟合”的泥潭，一遇到从未见过的新问题就应该变成笨蛋。

但现实却完全嘲讽了科学家的预料。极度复杂的深度学习神经网络在能够消化所有给定训练数据的同时，竟然还能对从未见过的新问题（新患者的 X 光片、从未听过的问题）对答如流。这就像是做出了一件无论什么体型的顾客穿上都能神奇地贴合身体伸缩的“终极智能服装”。科学家们震惊了：“到底为什么这么复杂的家伙不会陷入过拟合，反而能给出正确答案？”

实际上，深度学习在处理数据时使用了一种叫做“连续可微激活函数 (Continuously differentiable activation functions)”的东西。简单来说，这是一种数学过滤器，它让信息的流动不至于断断续续，而是像平滑的波浪一样流淌。一旦通过这个过滤器，人工智能就满足了 “通用近似定理 (Universal approximation theorem)” 的条件，即它可以像粘土一样自由自在地完美模仿任何复杂的数据形态 [深度学习 - 维基百科]。

除此之外，能够将结果漂亮地划分为“A 的概率 80%，B 的概率 20%”的“Softmax”层，以及这些方法在处理大规模信息时提供卓越一致性的事实，正被逐一证明 [深度学习 - 维基百科]。然而，关于“为什么转动了数百亿个旋钮却没有崩溃，反而能如此完美地泛化 (Generalization) 到新问题上？”这一宏大的数学谜题仍未完全拼凑完成。

现状 (Where We Stand)：物理学和数学作为“救场投手”登场

面对这一无法解释的人工智能奇迹，为了减轻计算机科学家的负担，“理论物理学”和“纯数学”的研究人员卷起袖子，作为救场投手登场了。最近学术界涌现出了大量令人惊叹且具体的深度学习新理论。

最有趣且最具突破性的方法之一就是借用 “理论物理学 (Theoretical physics)” 的方式。正如粒子物理学家使用“有效理论 (Effective theory)”来整体解释宇宙中无数肉眼不可见的微小粒子复杂的运动一样，科学家们正在研究一种物理方法，以理解由数十亿参数如蛛网般交织而成的庞大神经网络 [深度学习理论原理]。最近出版的一本教科书基于这一视角，提供了一个极佳的理论框架，从神经网络的微观组成部分到决定最终输出的准确描述方法，宏观地理解现实中的神经网络 [深度学习理论原理：理解神经网络的有效理论方法]。

此外，利用能将复杂的人工智能行为在数学上平滑连接的“样条函数 (Spline functions)”进行的研究也非常活跃。就像建筑师设计平滑曲线屋顶时使用的数学工具一样，旨在深层网络 (Deep networks) 与现有近似理论之间搭建严密且稳固桥梁的“样条理论 (Spline Theory)”正是其中的主角 [深度学习样条理论]。

最近，研究人员综合了所有这些动态，甚至宣布 “深度学习科学理论 (A scientific theory of deep learning) 正在兴起” [深度学习将会有科学理论]。这一理论并非简单的猜测，而是旨在通过明确的数学特征，界定深度学习模型的训练过程、隐藏的数据表达方式、最终决定的权重 (Weights) 以及整体性能等人工智能最重要的属性 [深度学习将会有科学理论]。

特别是，科学家们为了完成这一宏大的科学理论，正全身心投入于以下五个核心研究领域 [2604.21691] 深度学习将会有科学理论：

可解的理想化设置 (Solvable idealized settings)： 正如在建造摩天大楼之前先用简单的玩具积木实验结构一样，研究可以推导出实际系统学习方式的简化模型。
可处理的极限 (Tractable limits)： 通过将变量推向数学极限，揭示根本学习现象的秘密。
简单的数学定律 (Simple mathematical laws)： 不再执着于每一片复杂的树叶，而是发现基于观察的、能解释整片森林形状的简单定律。
超参数理论 (Theories of hyperparameters)： 正如为了烹饪美味佳肴而将温度和时间完美公式化一样，进行将学习过程的设置值分离并降低整体复杂度的研究。
通用行为模式 (Universal behaviors)： 正如苹果落地和月亮绕地运行都适用同样的万有引力定律一样，查明在多种不同神经网络系统中共同出现的普遍现象。

随着这五块巨大的拼图碎片逐渐找准位置，我们终于在见证一项将“经验性魔法”翻译为“可验证科学”的历史性学术成就。

未来会怎样？ (What’s Next)：能够计算“不确定性”的真正智能

那么，在所有这些科学理论完美建立之后，人工智能的未来会发生怎样的变化呢？我们在日常生活中能感受到的最重要且具破坏性的变化之一，就是 AI 将具备 完美感知并控制“不确定性 (Uncertainty)”的能力。

我们通常认为计算机或 AI 总是带着 100% 的信心给出无懈可击的答案。但在现实世界中，信息总是带有噪声且不完整的。未来的 AI 将通过融合概率深度学习 (Probabilistic deep learning) 模型与深层神经网络，演进到能够用数学方式计算出“AI 模型本身的局限性和不确定性”以及“人类输入的数据本身的不确定性”。 [深度学习概率理论]。

简单来说，未来的医疗 AI 不会简单地告诉医生“这是肿瘤”，而是会这样回答：“综合我所学习的模型的数学局限性，以及当前拍摄的 X 光片画质的不良情况（数据不确定性），其为恶性肿瘤的概率精确为 87.3%。因此，为了确诊，必须进行额外的超声检查。”也就是说，AI 将能够意识到自己“不知道什么”，并以此向人类提供建议。

正如中世纪的炼金术发展为现代化学，从而使人类能够创造出塑料和宇宙飞船新材料一样，深度学习也正走过依赖盲目经验的时代，站上最坚固的科学理论之巅。一旦能完美理解并控制其内部运作原理，人工智能将在未来把人类的生活变得多么惊人且安全，那场真正伟大的变革或许现在才刚刚开始。

MindTickleBytes AI 的观点 🤖

这就好比原始人类先发现了火并用来烤肉，却在几百年后才理解了燃烧的化学原理。AI 的实践成功和技术狂奔也同样远远超过了数学理论。

但是，建在沙子上的城堡终究会倒塌。现在，通过粒子物理学和纯数学的严密语言来领悟深度学习根本原理的过程，将成为一个历史性的转折点，把 AI 从令人恐惧的“神秘魔法盒”锻造为完全可预测、可控的“人类最强工具”。我们正站在 21 世纪新科学革命完成的最前沿。

参考资料

[[深度学习信息瓶颈理论 OpenReview]](https://openreview.net/forum?id=ry_WPG-A-)
[深度学习 - 维基百科]
[深度学习简介 - GeeksforGeeks]
[[深度学习理论向量空间元素]](https://elonlit.com/scrivings/a-theory-of-deep-learning/)
[深度学习理论原理]
[深度学习理论原理：理解神经网络的有效理论方法]
[深度学习样条理论]
[深度学习将会有科学理论]
[2604.21691] 深度学习将会有科学理论
[深度学习概率理论]

Share this article:

测试你的理解

Q1. 根据传统统计学的“偏差-方差权衡”原理，如果模型的参数（可调节数值）远多于数据，通常会出现什么现象？

欠拟合 (Underfitting)
过拟合 (Overfitting)
通用近似 (Universal approximation)

根据传统统计学习理论，模型过于简单会导致欠拟合，而模型过于复杂、表达能力过强则会导致过度记忆数据，从而产生过拟合 (Overfitting)。

Q2. 科学家近期借用了哪个学科领域的概念来解释深度学习理论？

理论物理学 (Theoretical physics)
量子力学 (Quantum mechanics)
古典生物学 (Classical biology)

最近，科学家们正在借鉴理论物理学的概念和方法来解释深度学习模型的运作原理。

Q3. 以下哪项是“概率深度学习 (Probabilistic deep learning)”旨在处理的核心要素？

计算速度最大化
不确定性 (Uncertainty) 的解释
视觉设计的改进

概率深度学习是一个旨在解释并考虑模型本身不确定性以及数据不确定性的领域。