當AI的兩個死對頭相遇:「決策樹」與「擴散模型」的驚人整合

一個抽象的3D插圖,展示了層層堆疊的階梯狀結構與柔和流動的波浪形狀在一個發光的球體中自然融合
AI Summary

曾經水火不容的兩種AI模型結構在同一個數學原理上達成了統一,這使得生成像Excel表格這樣複雜數據的速度和效率比以往提高了一倍。

在人工智慧(AI)的世界裡,存在著無數種「大腦」。有些大腦喜歡黑白分明、有條理地按部就班思考,有些大腦則喜歡跟隨直覺且柔和的節奏。一直以來,研究AI的科學家們堅信這兩種大腦使用的是完全不同的語言。

想像一下。一邊是一位一絲不苟、嚴苛的會計師,他嚴格按照規則只用「是」和「否」來分類文件。另一邊是一位抽象派畫家,他在畫布上自由地潑灑顏料,毫無邊界地作畫。這兩個人的工作方式似乎根本不可能產生任何交集。

然而,最近AI學界發生了一件令人驚訝的事情。事實證明,這兩個人實際上在幕後看著「完全相同的數學規則表」在工作。這一驚人的發現不僅僅滿足了學術上的好奇心,更成為了一把神奇的鑰匙,能夠大幅提升AI處理我們日常使用的龐大數據的速度。這兩個「死對頭」究竟是如何合而為一的呢?

這為什麼重要?

最近,您可能經常看到關於AI能畫出精美圖片或製作逼真影片的驚人新聞。在這些無中生有的最新AI技術中,扮演心臟角色的正是「擴散模型(Diffusion Model)」。另一方面,在銀行決定是否批准貸款,或者醫院根據患者症狀快速推斷病名時,一種名為「決策樹(Decision Tree)」的非常經典且死板的AI方式早已被廣泛使用。

這裡產生了一個重要的現實問題。企業每天實際處理的數據中,90%以上並非華麗的圖片或影片,而是看起來非常枯燥且複雜的Excel表格形式數據(表格數據,Tabular Data)。例如銀行龐大的客戶資訊、購物中心的數百萬筆購買紀錄等。

最近,AI專家們進行了一項野心勃勃的嘗試,試圖將最聰明的新技術——擴散模型——應用於處理這些「表格數據」。「TabDDPM」模型就是一個具代表性的例子,雖然其產出結果非常出色,但卻有一個致命的弱點。那就是電腦需要計算的運算量太大,導致電力和伺服器成本達到了天文數字 [TreestoFlowsandBack:UnifyingDecisionTreesandDiffusion...](https://arxiv.org/pdf/2605.00414)

簡單來說,這就像是為了處理社區超市簡單的加減法收據,卻必須開啟一台價值數百億元的巨大超級電腦一樣荒唐的狀況。

然而,當科學家們找出了看似毫不相干的「決策樹」與「擴散模型」之間隱藏的數學連結時,這個僵局被徹底打破了。他們發現了一個妙招,即借用快速輕量的決策樹方式,跳過笨重昂貴的擴散模型所需進行的很大一部分計算。結果,處理數據的速度與效率就像打通了高速公路一般,實現了飛躍性的提升。這不僅大幅降低了我們看不見的企業龐大數據中心伺服器成本,更為更快速、更聰明的數據分析服務的出現奠定了堅實的基礎。

簡單理解:階梯與溜滑梯的平行理論

要真正理解這項創新發現的原理,我們首先需要比較這兩種AI模型截然不同的性格。

第一,決策樹(Decision Tree)。這個朋友的原理和我們小時候跟朋友玩的「二十個問題」遊戲完全一樣。「這隻動物有毛嗎?」、「有」,「那麼有4條腿嗎?」、「沒有」。它透過這樣問與答明確中斷的階段,來找出最終的正確答案。因此,傳統上這個模型被認為具有像階梯一樣斷斷續續的離散(discrete)以及由上而下的層次化(hierarchical)特徵 [Trees to Flows and Back: Unifying Decision Trees and ...](https://arxiv.org/abs/2605.00414)

第二,擴散模型(Diffusion Model)。這個朋友使用的方式,是從一張大霧瀰漫的模糊照片中,非常緩慢且連續地撥開迷霧,從而創造出清晰的圖像。在過程中,你無法像用刀切蘿蔔一樣,明確劃分出哪裡是霧、哪裡是真實的物體。這個模型具有像波浪般柔和且不斷延續的連續(continuous)和動態(dynamic)特徵 [Trees to Flows and Back: Unifying Decision Trees and ...](https://papers.cool/arxiv/2605.00414)

從表面上看,任何人都會覺得這兩者是極端對立的。一個是斷斷續續的粗糙「階梯」,另一個則是柔和滑落的「溜滑梯」 [Trees to Flows and Back: Unifying Decision Trees and ...](https://www.alphaxiv.org/abs/2605.00414v1)

然而,研究團隊在設定了一個非常特定的極限數學條件(數學術語為極限狀態,limiting regimes)後,將這個階梯切割得極度微細。結果令人驚訝的是,他們在世界上首次證明了,這個被細碎切割的階梯樣貌,最終與溜滑梯的柔和曲線變得完全一樣,這就是清晰的數學一致性(crisp mathematical correspondence) [Unifying Decision Trees and Diffusion Models Through ...](https://icanews.org/engineering-technology/decision-trees-diffusion-models-unification-2026)

打個比方是這樣的。您要登上巨大的山頂有兩種方法。一種是踏踏實實地一步一步踩著石階上去(決策樹),另一種是沿著傾斜的泥土路輕柔地走上去(擴散模型)。雖然走法完全不同,但從上面俯瞰,最終這兩種方法都走在「用最少的能量到達山頂這個共同目標點」的同一條路上。

研究團隊就這樣找出了這兩個模型所共享的隱藏地圖,並將其命名為全域軌跡分數匹配(Global Trajectory Score Matching, GTSM)這一個共同的最佳化原理 [Trees to Flows and Back: Unifying Decision Trees and ...](https://www.emergentmind.com/papers/2605.00414)。簡單來說,這意味著這兩個AI是在對著同一個數學記分板爭奪最高分。

在這裡又發現了另一個更令人驚訝的事實。在這個共同的原理下觀察的結果證明,長期以來被用作訓練AI的經典秘方——「梯度提升(Gradient Boosting)」技術,實際上就等同於擴散模型最終想要達到的最完美狀態(數學術語為漸近最佳,asymptotic optimum) [Gradient Boosting Turns Out to BeDiffusion's Asymptotic Optimum](https://ai-brief.liziran.com/en/daily/2026-05-07-gradient-boosting-diffusion-optimum)

也就是說,這是一個奇妙的含義:將曾被視為過時技術的「二十個問題」不斷完美地雕琢與修飾後,它最終在數學上等同於現今最受歡迎的頂級藝術家AI所繪製的柔和圖像的完成體。

目前狀況:「TreeFlow」的誕生

這個美麗而完美的數學發現,並沒有僅僅停留在複雜論文中的冰冷公式。

研究團隊以這項發現的理論基礎為骨架,創造出了一張全新的AI藍圖,能夠快速且精準地生成企業最常使用的「Excel表格形態數據」。這個框架的名稱就是「TreeFlow(Tree-Conditioned Flow Matching)」「DSM-Tree」 [Trees to Flows and Back: Unifying Decision Trees and ...](https://www.emergentmind.com/papers/2605.00414)

過去,為了逼真地生成這種表格數據,我們必須浪費大量的電力,勉強運轉整個笨重遲鈍的擴散模型。但現在透過TreeFlow技術,我們能夠完全保留「決策樹」快速輕量的運算方式優勢,同時獲得擴散模型特有的出色且流暢的數據品質。這就好比將沉重龐大的貨物裝載到輕盈敏捷的最新跑車上,並能夠飛速疾馳。

未來會如何發展?

這項新發現的驚人成果,已經透過生動的數字得到了證明。

將新開發的TreeFlow技術應用於實際的數據生成任務的結果顯示,與現有的笨重方式相比,成功實現了高達2倍的速度提升(2x speedup) [Gradient Boosting Turns Out to BeDiffusion's Asymptotic Optimum](https://ai-brief.liziran.com/en/daily/2026-05-07-gradient-boosting-diffusion-optimum)。快2倍不僅僅是快了一點點,這意味著原本需要10小時的數據分析現在只需5小時即可完成,並且能將數千台伺服器的維護成本砍半,這是一個巨大的意義。

此外,將龐大笨重的AI模型的聰明知識壓縮並移植到輕量AI模型的所謂「蒸餾(Distillation)」過程中,也發生了奇蹟。DSM-Tree技術幾乎完整保留了原始擴散模型的出色性能,同時展現出誤差率僅在2%以內(within-2% distillation)的壓倒性效率與準確度 [Gradient Boosting Turns Out to BeDiffusion's Asymptotic Optimum](https://ai-brief.liziran.com/en/daily/2026-05-07-gradient-boosting-diffusion-optimum)

未來,銀行、大型醫院醫療機構,以及擁有數千萬客戶的大型電子商務企業,將不得不張開雙臂歡迎這項技術。因為最近強化的個人資料保護法,使得他們無法隨意將真實客戶的敏感數據用於AI分析。作為替代方案,能夠快速且精準地生成與真實數據一模一樣的虛擬「假客戶數據」的技術變得不可或缺,但在過去,這項技術的成本實在太高了。

但是,多虧了這次驚人的整合發現,企業現在能夠在消耗少得多的運算成本和電力的情況下,快速、安全地大量生成高品質的虛擬數據。

MindTickleBytes AI的觀點

當看似道路不同、一輩子都不會產生交集的兩項技術,在最深刻且本質的「數學」根源領域戲劇性地相遇時,便誕生了前所未有的驚人效率。這是一個極佳的案例,再次明確證明了在AI最佳化的過程中,不應僅僅執著於眼前華麗的應用技術,探究事物本質的純粹基礎科學與跨界融合的思維,能成為多麼強大且偉大的武器。「二十個問題」與「波浪」相遇所締造的這項創新,未來將會讓我們生活中看不見的角落變得更加快速且智慧。

參考資料

  1. Trees to Flows and Back: Unifying Decision Trees and …
  2. Trees to Flows and Back: Unifying Decision Trees and …
  3. Trees to Flows and Back: Unifying Decision Trees and …
  4. Unifying Decision Trees and Diffusion Models Through …
  5. Trees to Flows and Back: Unifying Decision Trees and …
  6. Gradient Boosting Turns Out to BeDiffusion’s Asymptotic Optimum
  7. TreestoFlowsandBack:UnifyingDecisionTreesandDiffusion…
測試你的理解
Q1. 以下哪項最符合過去AI學界看待「決策樹」與「擴散模型」的觀點?
  • 將它們視為擁有完全相同數學基礎的兄弟模型。
  • 因為一個是離散的,另一個是連續的,所以將它們視為完全不同的模型家族。
  • 相信決策樹可以取代擴散模型。
傳統上,決策樹具有離散和層次化的特徵,而擴散模型則具有連續和動態的特徵,因此被視為完全不同的模型家族。
Q2. 本文中提到的「TabDDPM」等現有擴散模型,在處理Excel表格等數據(Tabular data)時,面臨的最大問題是什麼?
  • 雖然性能很好,但電腦運算成本(運算能力)過高。
  • 完全無法識別數據的形態。
  • 擴散模型根本無法應用於表格數據。
現有的TabDDPM模型等在生成表格數據方面表現出強大的性能,但存在一個致命的缺點,那就是運算成本(computational costs)過高。
Q3. 結合這兩種模型所建立的「TreeFlow」框架,實現了何種程度的速度提升?
  • 速度比以前提升5倍
  • 速度比以前提升2倍 (2x speedup)
  • 處理速度相同,但影像品質得到改善
結合了決策樹與擴散模型優點的TreeFlow模型,實現了比現有模型快2倍的速度提升(2x speedup)。