當AI的兩個死對頭相遇：「決策樹」與「擴散模型」的驚人整合

AI Summary

曾經水火不容的兩種AI模型結構在同一個數學原理上達成了統一，這使得生成像Excel表格這樣複雜數據的速度和效率比以往提高了一倍。

在人工智慧（AI）的世界裡，存在著無數種「大腦」。有些大腦喜歡黑白分明、有條理地按部就班思考，有些大腦則喜歡跟隨直覺且柔和的節奏。一直以來，研究AI的科學家們堅信這兩種大腦使用的是完全不同的語言。

想像一下。一邊是一位一絲不苟、嚴苛的會計師，他嚴格按照規則只用「是」和「否」來分類文件。另一邊是一位抽象派畫家，他在畫布上自由地潑灑顏料，毫無邊界地作畫。這兩個人的工作方式似乎根本不可能產生任何交集。

然而，最近AI學界發生了一件令人驚訝的事情。事實證明，這兩個人實際上在幕後看著「完全相同的數學規則表」在工作。這一驚人的發現不僅僅滿足了學術上的好奇心，更成為了一把神奇的鑰匙，能夠大幅提升AI處理我們日常使用的龐大數據的速度。這兩個「死對頭」究竟是如何合而為一的呢？

這為什麼重要？

最近，您可能經常看到關於AI能畫出精美圖片或製作逼真影片的驚人新聞。在這些無中生有的最新AI技術中，扮演心臟角色的正是「擴散模型（Diffusion Model）」。另一方面，在銀行決定是否批准貸款，或者醫院根據患者症狀快速推斷病名時，一種名為「決策樹（Decision Tree）」的非常經典且死板的AI方式早已被廣泛使用。

這裡產生了一個重要的現實問題。企業每天實際處理的數據中，90%以上並非華麗的圖片或影片，而是看起來非常枯燥且複雜的Excel表格形式數據（表格數據，Tabular Data）。例如銀行龐大的客戶資訊、購物中心的數百萬筆購買紀錄等。

最近，AI專家們進行了一項野心勃勃的嘗試，試圖將最聰明的新技術——擴散模型——應用於處理這些「表格數據」。「TabDDPM」模型就是一個具代表性的例子，雖然其產出結果非常出色，但卻有一個致命的弱點。那就是電腦需要計算的運算量太大，導致電力和伺服器成本達到了天文數字 [TreestoFlowsandBack:UnifyingDecisionTreesandDiffusion...](https://arxiv.org/pdf/2605.00414)。

簡單來說，這就像是為了處理社區超市簡單的加減法收據，卻必須開啟一台價值數百億元的巨大超級電腦一樣荒唐的狀況。

然而，當科學家們找出了看似毫不相干的「決策樹」與「擴散模型」之間隱藏的數學連結時，這個僵局被徹底打破了。他們發現了一個妙招，即借用快速輕量的決策樹方式，跳過笨重昂貴的擴散模型所需進行的很大一部分計算。結果，處理數據的速度與效率就像打通了高速公路一般，實現了飛躍性的提升。這不僅大幅降低了我們看不見的企業龐大數據中心伺服器成本，更為更快速、更聰明的數據分析服務的出現奠定了堅實的基礎。

簡單理解：階梯與溜滑梯的平行理論

要真正理解這項創新發現的原理，我們首先需要比較這兩種AI模型截然不同的性格。

第一，決策樹（Decision Tree）。這個朋友的原理和我們小時候跟朋友玩的「二十個問題」遊戲完全一樣。「這隻動物有毛嗎？」、「有」，「那麼有4條腿嗎？」、「沒有」。它透過這樣問與答明確中斷的階段，來找出最終的正確答案。因此，傳統上這個模型被認為具有像階梯一樣斷斷續續的離散（discrete）以及由上而下的層次化（hierarchical）特徵 [Trees to Flows and Back: Unifying Decision Trees and ...](https://arxiv.org/abs/2605.00414)。

第二，擴散模型（Diffusion Model）。這個朋友使用的方式，是從一張大霧瀰漫的模糊照片中，非常緩慢且連續地撥開迷霧，從而創造出清晰的圖像。在過程中，你無法像用刀切蘿蔔一樣，明確劃分出哪裡是霧、哪裡是真實的物體。這個模型具有像波浪般柔和且不斷延續的連續（continuous）和動態（dynamic）特徵 [Trees to Flows and Back: Unifying Decision Trees and ...](https://papers.cool/arxiv/2605.00414)。

從表面上看，任何人都會覺得這兩者是極端對立的。一個是斷斷續續的粗糙「階梯」，另一個則是柔和滑落的「溜滑梯」 [Trees to Flows and Back: Unifying Decision Trees and ...](https://www.alphaxiv.org/abs/2605.00414v1)。

然而，研究團隊在設定了一個非常特定的極限數學條件（數學術語為極限狀態，limiting regimes）後，將這個階梯切割得極度微細。結果令人驚訝的是，他們在世界上首次證明了，這個被細碎切割的階梯樣貌，最終與溜滑梯的柔和曲線變得完全一樣，這就是清晰的數學一致性（crisp mathematical correspondence） [Unifying Decision Trees and Diffusion Models Through ...](https://icanews.org/engineering-technology/decision-trees-diffusion-models-unification-2026)。

打個比方是這樣的。您要登上巨大的山頂有兩種方法。一種是踏踏實實地一步一步踩著石階上去（決策樹），另一種是沿著傾斜的泥土路輕柔地走上去（擴散模型）。雖然走法完全不同，但從上面俯瞰，最終這兩種方法都走在「用最少的能量到達山頂這個共同目標點」的同一條路上。

研究團隊就這樣找出了這兩個模型所共享的隱藏地圖，並將其命名為全域軌跡分數匹配（Global Trajectory Score Matching, GTSM）這一個共同的最佳化原理 [Trees to Flows and Back: Unifying Decision Trees and ...](https://www.emergentmind.com/papers/2605.00414)。簡單來說，這意味著這兩個AI是在對著同一個數學記分板爭奪最高分。

在這裡又發現了另一個更令人驚訝的事實。在這個共同的原理下觀察的結果證明，長期以來被用作訓練AI的經典秘方——「梯度提升（Gradient Boosting）」技術，實際上就等同於擴散模型最終想要達到的最完美狀態（數學術語為漸近最佳，asymptotic optimum） [Gradient Boosting Turns Out to BeDiffusion's Asymptotic Optimum](https://ai-brief.liziran.com/en/daily/2026-05-07-gradient-boosting-diffusion-optimum)。

也就是說，這是一個奇妙的含義：將曾被視為過時技術的「二十個問題」不斷完美地雕琢與修飾後，它最終在數學上等同於現今最受歡迎的頂級藝術家AI所繪製的柔和圖像的完成體。

目前狀況：「TreeFlow」的誕生

這個美麗而完美的數學發現，並沒有僅僅停留在複雜論文中的冰冷公式。

研究團隊以這項發現的理論基礎為骨架，創造出了一張全新的AI藍圖，能夠快速且精準地生成企業最常使用的「Excel表格形態數據」。這個框架的名稱就是「TreeFlow（Tree-Conditioned Flow Matching）」與「DSM-Tree」 [Trees to Flows and Back: Unifying Decision Trees and ...](https://www.emergentmind.com/papers/2605.00414)。

過去，為了逼真地生成這種表格數據，我們必須浪費大量的電力，勉強運轉整個笨重遲鈍的擴散模型。但現在透過TreeFlow技術，我們能夠完全保留「決策樹」快速輕量的運算方式優勢，同時獲得擴散模型特有的出色且流暢的數據品質。這就好比將沉重龐大的貨物裝載到輕盈敏捷的最新跑車上，並能夠飛速疾馳。

未來會如何發展？

這項新發現的驚人成果，已經透過生動的數字得到了證明。

將新開發的TreeFlow技術應用於實際的數據生成任務的結果顯示，與現有的笨重方式相比，成功實現了高達2倍的速度提升（2x speedup） [Gradient Boosting Turns Out to BeDiffusion's Asymptotic Optimum](https://ai-brief.liziran.com/en/daily/2026-05-07-gradient-boosting-diffusion-optimum)。快2倍不僅僅是快了一點點，這意味著原本需要10小時的數據分析現在只需5小時即可完成，並且能將數千台伺服器的維護成本砍半，這是一個巨大的意義。

此外，將龐大笨重的AI模型的聰明知識壓縮並移植到輕量AI模型的所謂「蒸餾（Distillation）」過程中，也發生了奇蹟。DSM-Tree技術幾乎完整保留了原始擴散模型的出色性能，同時展現出誤差率僅在2%以內（within-2% distillation）的壓倒性效率與準確度 [Gradient Boosting Turns Out to BeDiffusion's Asymptotic Optimum](https://ai-brief.liziran.com/en/daily/2026-05-07-gradient-boosting-diffusion-optimum)。

未來，銀行、大型醫院醫療機構，以及擁有數千萬客戶的大型電子商務企業，將不得不張開雙臂歡迎這項技術。因為最近強化的個人資料保護法，使得他們無法隨意將真實客戶的敏感數據用於AI分析。作為替代方案，能夠快速且精準地生成與真實數據一模一樣的虛擬「假客戶數據」的技術變得不可或缺，但在過去，這項技術的成本實在太高了。

但是，多虧了這次驚人的整合發現，企業現在能夠在消耗少得多的運算成本和電力的情況下，快速、安全地大量生成高品質的虛擬數據。

MindTickleBytes AI的觀點

當看似道路不同、一輩子都不會產生交集的兩項技術，在最深刻且本質的「數學」根源領域戲劇性地相遇時，便誕生了前所未有的驚人效率。這是一個極佳的案例，再次明確證明了在AI最佳化的過程中，不應僅僅執著於眼前華麗的應用技術，探究事物本質的純粹基礎科學與跨界融合的思維，能成為多麼強大且偉大的武器。「二十個問題」與「波浪」相遇所締造的這項創新，未來將會讓我們生活中看不見的角落變得更加快速且智慧。

參考資料

Share this article:

測試你的理解

Q1. 以下哪項最符合過去AI學界看待「決策樹」與「擴散模型」的觀點？

將它們視為擁有完全相同數學基礎的兄弟模型。
因為一個是離散的，另一個是連續的，所以將它們視為完全不同的模型家族。
相信決策樹可以取代擴散模型。

傳統上，決策樹具有離散和層次化的特徵，而擴散模型則具有連續和動態的特徵，因此被視為完全不同的模型家族。

Q2. 本文中提到的「TabDDPM」等現有擴散模型，在處理Excel表格等數據（Tabular data）時，面臨的最大問題是什麼？

雖然性能很好，但電腦運算成本（運算能力）過高。
完全無法識別數據的形態。
擴散模型根本無法應用於表格數據。

現有的TabDDPM模型等在生成表格數據方面表現出強大的性能，但存在一個致命的缺點，那就是運算成本（computational costs）過高。

Q3. 結合這兩種模型所建立的「TreeFlow」框架，實現了何種程度的速度提升？

速度比以前提升5倍
速度比以前提升2倍 (2x speedup)
處理速度相同，但影像品質得到改善

結合了決策樹與擴散模型優點的TreeFlow模型，實現了比現有模型快2倍的速度提升（2x speedup）。