連開發者都不知道AI是如何運作的？「深度學習理論」的驚人演進

AI Summary

過去依賴經驗與直覺發展的深度學習技術，如今在物理學和數學的幫助下，正蛻變為能夠完美解釋其運作原理的「科學理論」。

各位，請先想像一個日常生活中的場景。早晨醒來，您對著智慧型手機的語音助理說：「請把今天下午會議的資料摘要一下並發郵件給我。」幾秒鐘後，一份彷彿由人類親手編寫般完美的摘要便送達了。或者在醫院裡，人工智慧能瞬間找出連資深醫師都難以察覺的微小腫瘤。我們已經生活在一個人工智慧如同「魔法」般運作的時代。

但是這裡有一個真正令人驚訝（也許還有點令人毛骨悚然）的事實。直到最近，即便是創造出人工智慧的天才工程師與科學家們，也無法明確解釋其根本的數學原理，也就是「這個AI究竟為什麼能如此聰明且完美地運作」。

儘管作為當今我們所知的人工智慧核心——深度學習（Deep Learning，一種模仿人類大腦結構的人工神經網路機器學習技術）取得了巨大的實用性成功，但能夠令人滿意地解釋其行為的理論發展，在歷史上卻一直處於落後狀態 [[關於深度學習的資訊瓶頸理論

OpenReview]](https://openreview.net/forum?id=ry_WPG-A-)。

打個比方：這就像是我們非常清楚能烤出世界上最美味蛋糕的「食譜（經驗）」，但在不知道麵粉和糖在烤箱中是如何產生化學結合的「原理（理論）」的情況下，卻一直經營著一家大型麵包店。

但現在學界的氛圍正在徹底改變。因為世界各地頂尖的科學家們齊聚一堂，開始解剖人工智慧的大腦，並正式確立能夠透明地解釋其運作原理的「深度學習的科學理論（A Scientific Theory of Deep Learning）」。今天，我們將使用連高中生都能看懂的淺顯語言，探討為何深度學習長久以來對科學家們而言是個謎團，以及最近這扇秘密之門是如何被打開的。

這為什麼很重要？（Why It Matters）

您可能會想：「只要結果好不就行了嗎？有必要用數學去了解那麼複雜的原理嗎？」如果只是一般的日常聊天機器人，或許確實如此。然而，當深度學習開始在我們的生活中做出非常重要的決定時，了解其原理就成了攸關「安全」與「信任」的問題。

如今，深度學習已不再只是個玩具。在攸關人命的極其敏感的醫療領域，例如癌細胞分類（cancer cell classification）、病灶檢測（lesion detection）、器官分割（organ segmentation）以及影像品質改善等方面，它已經展現出超越人類的競爭力成果 [深度學習 - Wikipedia]。

此外，在受訓以在特定環境內採取行動並將獎勵（reward）最大化的強化學習（Reinforcement learning）中，深度學習也扮演著核心角色 [深度學習簡介 - GeeksforGeeks]。簡單來說，這是一種人工智慧技術，就像一個騎腳踏車的孩子在反覆跌倒與站起的過程中尋找最佳平衡一樣，透過反覆試錯來學習最佳行動。

當它進行與生命直接相關的醫療診斷，或是讓巨型機器人與自動駕駛汽車在現實世界中直接採取行動（Action）時，僅憑「因為一直以來都運作得很好，所以明天大概也會運作得很好」這種單純的經驗性信念是遠遠不夠的。唯有完美的數學理論作為後盾，我們才能科學地證明並保證人工智慧在面臨意想不到的特定突發狀況時，絕對不會犯下致命的錯誤。也就是說，深度學習理論是將AI從「不知原理的危險黑盒子」轉變為「人類完全可控的工具」的唯一鑰匙。

淺顯易懂的解釋（The Explainer）：讓科學家們感到困惑的深度學習悖論

那麼，世界上最頂尖的電腦科學家們究竟覺得深度學習的哪一點如此難以理解呢？為了解答這個問題，我們必須先認識傳統統計學幾十年來一直信奉的黃金法則——「偏差-變異數權衡（Bias-variance tradeoff）」 [[深度學習理論

向量空間的元素]](https://elonlit.com/scrivings/a-theory-of-deep-learning/)。

請想像一下您是社區西裝店的裁縫師。您的任務是製作出完美貼合顧客（數據）身型的衣服（AI模型）。

如果太過隨便，做了一件極其寬鬆的方形單一尺寸T恤會怎樣？這件衣服穿在任何人身上都不會好看。在統計學中，這種因為模型太過簡單而無法正確捕捉數據特徵的現象，被稱為欠擬合（Underfit）。
相反地，如果您完美貼合某位特定顧客身上的微小疤痕與傾斜1公分的不對稱肩膀，製作出一套極度精緻的訂製西裝呢？對那位顧客來說或許是滿分100分，但其他任何新顧客都無法穿上那件衣服。這種因為模型擁有過於豐富的表現力（expressive），以至於把過去的訓練數據完美背了下來，但面對新數據卻變得一塌糊塗的現象，被稱為過擬合（Overfit）。

在傳統的古典統計學習理論中，在這種「簡單」與「複雜」之間取得適當的平衡是絕對的不成文規定 [[深度學習理論

向量空間的元素]](https://elonlit.com/scrivings/a-theory-of-deep-learning/)。

然而，「深度學習」這傢伙的出現，徹底粉碎了這個古老的數學規則。深度神經網路（Deep neural networks）擁有的參數（parameters，像是人工智慧內部可以微調的數百億個音量旋鈕般的數值）數量，比它需要學習的數據點數量還要多出數千倍、數萬倍。這完全是一種「過度參數化（Overparameterized）」的狀態 [[深度學習理論

向量空間的元素]](https://elonlit.com/scrivings/a-theory-of-deep-learning/)。這就像是為了考出100分的考卷，而把100萬冊的百科全書整個死記硬背下來一樣。根據古典理論，這種極度複雜的AI理應無條件地陷入「過擬合」的泥沼，遇到從未見過的新問題就會變成傻瓜才算正常。

但現實卻徹底嘲笑了科學家們的預期。極度複雜的深度學習神經網路不僅強大到能夠消化所有給定的訓練數據，同時面對從未見過的新問題（新病患的X光片、第一次聽到的問題）也能輕鬆給出正確答案。這就像是發明了一種神奇的「終極智慧服裝」，無論什麼體型的顧客來，都能如魔法般完美地拉伸縮小以貼合身型。科學家們都驚呆了：「到底為什麼這麼複雜的傢伙不會陷入過擬合，還能給出正確答案？」

實際上，深度學習在處理數據時使用了一種叫做「連續可微激活函數（Continuously differentiable activation functions）」的東西。簡單來說，這是一種數學濾鏡，能讓資訊的流動不會突然斷裂，而是像柔和的水波一樣順暢地連結起來。通過這個濾鏡後，人工智慧就能滿足「通用近似定理（Universal approximation theorem）」的條件，意味著無論數據的形狀多麼複雜，它都能像黏土一樣自由自在地完美模仿 [深度學習 - Wikipedia]。

此外，像能將結果值漂亮地劃分為「A的機率為80%，B的機率為20%」的「Softmax」層，以及這些方法在處理大規模資訊時能提供卓越一致性等事實，也正被一一證明 [深度學習 - Wikipedia]。但是，「為什麼轉動了數百億個旋鈕依然沒有崩潰，還能如此完美地泛化（Generalization）到新問題上？」這個巨大的數學謎團，仍未能完全拼湊出答案。

目前的狀況（Where We Stand）：物理學與數學作為救援投手登板

面對這無法解釋的人工智慧奇蹟，為了減輕電腦工程師的負擔，「理論物理學」與「純數學」的研究人員捲起袖子，作為救援投手登板了。最近學界正湧現出令人驚豔且具體的全新深度學習理論。

最有趣且具顛覆性的方法之一，就是借用「理論物理學（Theoretical physics）」的方法。就像粒子物理學家使用「有效理論（Effective theory）」來整體解釋宇宙中無數看不見的微粒其複雜的運動一樣，現在也有研究正在探討用物理學的方法來理解如蜘蛛網般交織著數十億個參數的巨大神經網路 [深度學習理論原則]。最近出版的一本教科書便以此視角為基礎，提出了一個宏觀理解現實神經網路的出色理論框架，涵蓋了從人工神經網路的微觀組成要素到決定最終輸出的準確解釋方法 [深度學習理論原則：理解神經網路的有效理論方法：Roberts, Daniel A., Yaida, Sho, Hanin, Boris: 9781316519332: Amazon.com: Books]。

此外，利用能夠將複雜的人工智慧行為在數學上平滑連接的「樣條函數（Spline functions）」的研究也非常活躍。這就像建築師設計流暢曲線屋頂時所使用的數學工具，「樣條理論（Spline Theory）」旨在透過它在深層網路（Deep networks）與現有近似理論之間建立起嚴密且穩固的橋樑 [深度學習的樣條理論]。

最近，研究人員綜合了所有這些動態發展，正式宣佈「深度學習的科學理論（A scientific theory of deep learning）正在崛起」 [深度學習將會有一套科學理論]。這項理論並非僅僅是「大概是這樣」的猜測，而是旨在明確並在數學上定義出深度學習模型訓練過程、隱藏數據的表示方式、最終決定的權重（Weights），以及整體效能等人工智慧最重要的屬性 [深度學習將會有一套科學理論]。

尤其是科學家們為了完成這個龐大的科學理論，正傾全力投入以下5個核心研究領域 [2604.21691] 深度學習將會有一套科學理論：

可解的理想化環境 (Solvable idealized settings): 就像在建造巨大高樓之前先用簡單的玩具積木測試結構一樣，研究簡化模型以推論出實際系統的學習方式。
易於處理的極限 (Tractable limits): 嘗試將變數推向數學的極限，以揭開根本學習現象的秘密。
簡單的數學法則 (Simple mathematical laws): 不再執著於每一片複雜的樹葉，而是發現能基於觀察並解釋整座巨大森林輪廓的簡單法則。
超參數理論 (Theories of hyperparameters): 就像為了做出美味料理而將溫度和時間完美公式化一樣，進行分離學習過程的設定值以降低整體複雜度的研究。
普遍行為模式 (Universal behaviors): 就像蘋果掉落和月球繞著地球轉動都適用於相同的重力這個普遍法則一樣，釐清在各種不同的神經網路系統中共同出現的普遍現象。

隨著這5塊巨大的拼圖逐漸歸位，我們終於見證了將「經驗的魔法」轉譯為「可驗證的科學」這一歷史性的學術成就。

未來會如何發展？（What’s Next）：連「不確定性」都能計算的真正智慧

那麼，當這所有的科學理論被完美確立後，人工智慧的未來會發生什麼變化呢？我們在日常生活中能感受到的最重要且最具顛覆性的變化之一，就是AI將具備完美認知並控制「不確定性（Uncertainty）」的能力。

我們通常認為電腦或AI總能帶著100%的自信給出無懈可擊的答案。但現實世界中的資訊總是充滿雜訊且不完整的。未來的AI將會把機率深度學習（Probabilistic deep learning）模型與深度神經網路融合，朝著能夠在數學上不僅計算出「AI模型本身的限制與不確定性」，連同「人類輸入數據本身的不確定性」也一併計算出來的方向演進 [深度學習的機率理論]。

簡單來說，未來的醫療AI不再只是對醫師給出「這是腫瘤」的肯定結論，而是會這樣回答：「綜合考量我所學習模型的數學限制，以及目前拍攝的X光畫質不佳（數據不確定性），這是惡性腫瘤的機率準確來說是87.3%。因此，為了確診，必須進行額外的超音波檢查。」也就是說，AI將能認知到自己「不知道什麼」，並向人類提供建議。

就像中世紀的煉金術發展為近代化學後，人類得以創造出塑膠與太空船新材料一樣，深度學習也度過了盲目依賴經驗的時代，如今已站在最堅固的科學理論之上。當人工智慧的內部運作原理被我們完全理解與掌控時，它將在未來多麼驚人且安全地改變人類的生活？這真正偉大的變革，或許正是從此刻才要開始。

MindTickleBytes AI 的觀點 🤖

這就像原始人類先發現了火並用來烤肉，但卻過了好幾百年才領悟燃燒的化學原理一樣。AI在實用上的成功與技術的狂奔，也遠遠超前了數學理論的發展。

但建立在沙上的城堡終究會倒塌。如今，利用粒子物理學與純數學的嚴密語言來理解深度學習根本原理的過程，將成為一個歷史性的轉折點，把AI從令人畏懼的「神秘魔法盒」，塑造成可完美預測與控制的「人類最棒的工具」。我們現在正站在21世紀新科學革命完成的最前線。

參考資料

[[關於深度學習的資訊瓶頸理論 OpenReview]](https://openreview.net/forum?id=ry_WPG-A-)
[深度學習 - Wikipedia]
[深度學習簡介 - GeeksforGeeks]
[[深度學習理論向量空間的元素]](https://elonlit.com/scrivings/a-theory-of-deep-learning/)
[深度學習理論原則]
[深度學習理論原則：理解神經網路的有效理論方法：Roberts, Daniel A., Yaida, Sho, Hanin, Boris: 9781316519332: Amazon.com: Books]
[深度學習的樣條理論]
[深度學習將會有一套科學理論]
[2604.21691] 深度學習將會有一套科學理論
[深度學習的機率理論]

Share this article:

測試你的理解

Q1. 根據傳統統計學的「偏差-變異數權衡（Bias-variance tradeoff）」原理，如果模型擁有比數據多太多的參數（可調整的數值），正常情況下會發生什麼現象？

欠擬合 (Underfitting)
過擬合 (Overfitting)
通用近似 (Universal approximation)

根據傳統的統計學習理論，如果模型太過簡單會發生欠擬合，而如果太過複雜且表現力過高，則會因為過度死記硬背數據而產生過擬合（Overfitting）。

Q2. 最近科學家們為了借鑒並解釋深度學習理論，採用了哪個學科領域的概念？

理論物理學 (Theoretical physics)
量子力學 (Quantum mechanics)
古典生物學 (Classical biology)

最近科學家們為了說明深度學習模型的運作原理，正在借用理論物理學的概念與方法。

Q3. 下列何者是「機率深度學習（Probabilistic deep learning）」主要探討的核心要素？

計算速度極大化
不確定性（Uncertainty）的解釋
視覺設計的改善

機率深度學習是一個同時解釋和考量模型本身的不確定性與數據不確定性的領域。