「我家電腦也能成為巨大 AI 的大腦？」Google DeepMind 展示的「DiLoCo」創新技術

AI Summary

Google DeepMind 開發的 DiLoCo 技術，即使在網路連接較慢的情況下，也能將多台電腦連結起來高效訓練巨大 AI，開啟了降低能耗且具備強大系統容錯能力的分布式訓練新時代。

打造 AI 真的需要「昂貴的建築」嗎？

想像一下。 您正與分散在全球的 10 位朋友共同編寫一本非常厚實的百科全書。過去，這 10 個人必須聚在同一個房間裡，因為每個人都必須每一秒鐘不停地確認彼此正在寫什麼句子。如果其中任何一個人去上廁所或鉛筆斷了，整個工作就會停擺。此外，為了讓大家聚在一起，還必須租用昂貴的會議室，運作數十台冷氣，負擔巨額的電費。

現在製造像 ChatGPT 這樣的巨大語言模型的過程正是如此。必須在被稱為「數據中心」的巨大建築中，塞入數千張最尖端的繪圖卡（GPU，運算專用晶片），並用非常昂貴且快速的專用電纜將它們緊密連接，才能進行訓練去中心化 AI 訓練：DiLoCo 與 DeMo 的新時代。在這個過程中，投入巨額電力與天文數字般的資金是理所當然的 Google DeepMind 推出 DiLoCo 以降低 AI 訓練能耗 - MSN。

但最近，Google DeepMind 發布了一項打破這種固定觀念的驚人技術。那就是 DiLoCo (Distributed Low-Communication Training，分布式低通訊訓練) DiLoCo：語言模型的分布式低通訊訓練。利用這項技術，即使不聚集在同一個地方，甚至網路速度稍慢，也能將全球的電腦連結在一起來教導聰明的 AI。

這為何重要？ (Why It Matters)

直到現在，巨大 AI 一直被視為所謂的「富人專利」。只有能建造數兆韓元規模數據中心的全球大科技公司，才能壟斷最高性能的 AI。但 DiLoCo 有潛力改變這一局面。

節能與成本降低：Google DeepMind 強調 DiLoCo 的設計初衷是為了減少 AI 訓練所需的大量能源 Google DeepMind 推出 DiLoCo 以降低 AI 訓練能耗 - MSN。比喻來說，這就像是從每次都要搭飛機集合，改成各自在家工作、偶爾互傳電子郵件的方式。由於它可以在一般的網路環境下運作，而非昂貴的專用通訊網，基礎設施的建置成本將大幅下降。
不崩潰的訓練系統：傳統方式中，數千台電腦中只要有一台故障，整個訓練就會停止，這是一個致命的弱點。但 DiLoCo 採用「島嶼 (Island)」形式的獨立結構。因此，即使一兩個地方的硬體故障，其餘的「島嶼」仍能繼續訓練，具備強大的 容錯能力 (Fault Tolerance，系統恢復能力) 去中心化 AI 訓練將家庭變成數據中心 - IEEE Spectrum。
閒置電腦的復活：現在，家家戶戶的個人電腦或遍布全球的中小規模伺服器機房，都能分擔打造巨大 AI 的「數據中心」角色。這等於是誕生了一個將全球閒置資源匯聚在一起的巨大虛擬智慧體去中心化 AI 訓練將家庭變成數據中心 - IEEE Spectrum。

輕鬆理解：DiLoCo 的魔法 (The Explainer)

DiLoCo 的核心是 「各自充分學習，偶爾見面對答案」。技術上稱為「聯邦平均方式 (Federated Averaging)」的變形，讓我們來深入了解 DiLoCo：語言模型的分布式低通訊訓練。

第 1 步：在各自的島嶼努力學習 (Inner Steps)

如果說傳統方式是每寫一個句子就要問對方「這對嗎？」，DiLoCo 則是對每個群組（電腦島嶼）下令：「好，大家各自完成 1,000 頁的學習後再見面。」此時，每個島嶼內部會使用名為 AdamW 的聰明訓練優化演算法來高效教導 AI DiLoCo：語言模型的分布式低通訊訓練 | OpenReview。

第 2 步：偶爾見面整合知識 (Outer Steps)

獨自學習一段時間後的島嶼們終於聚在一起，分享彼此學到的內容。這時會由另一個名為 Nesterov 動量 (Nesterov momentum) 的引導演算法負責把關，確保整體的學習方向不會偏差 DiLoCo：語言模型的分布式低通訊訓練 | OpenReview。由於這種會面次數非常少，網路通訊量大幅減少，即使在慢速連接下也能進行訓練。

進一步：’Decoupled’ 與 ‘DeMo’ 的進化

最近，這項技術進一步發展，加入了 DeMo (Decoupled Momentum Optimization，解耦動量優化) 技術去中心化 AI 訓練：DiLoCo 與 DeMo 的新時代。簡單來說，以前島嶼間整合知識時會交換全部的學習內容，現在則是 只壓縮傳遞最重要的變化點，將通訊效率最大化基於解耦動量優化的分布式低通訊訓練。

此外，像是 DeToNATION 這樣的新框架正將 AI 的大腦結構進一步細分（Sharding），幫助在網路環境不穩定的情況下也能靈活地延續訓練 DeToNATION：互連線上節點上的解耦 Torch 網路感知訓練。

目前狀況：非理論而是現實 (Where We Stand)

這項技術在實驗室外是否也能運作良好？最近發布的研究結果令人驚訝。

相同的性能：利用 DiLoCo 訓練 8 個獨立電腦群組的結果顯示，其性能與將所有資源集中在一起訓練的傳統方式幾乎沒有差異 DiLoCo：語言模型的分布式低通訊訓練。
全球網路實驗：利用任何人都能使用的 OpenDiLoCo 開源框架進行的實際實驗中，取得了連結全球的成果。該實驗連結了分散在 2 個大洲、3 個國家 的電腦資源進行訓練，儘管存在因地理距離導致的通訊延遲，仍成功地 高效利用了 90~95% 的運算資源 OpenDiLoCo：全球分布式低通訊訓練的開源框架。
規模越大越有利：研究證實，隨著 AI 模型體積的增大，DiLoCo 方式比傳統方式更能穩定地擴展高通訊效率的語言模型訓練可可靠地擴展且…。

未來會如何發展？ (What’s Next)

雖然 DiLoCo 才剛起步，但其影響力已被專家評為「強大 (Oversized)」 [前沿訓練

Sam Lehman - Symbolic Capital](https://www.symbolic.capital/writing/frontier-training)。

請試著想像一下未來。 當全球數百萬名玩家在晚上不使用電腦時，那些閒置資源透過 DiLoCo 連結起來，訓練為人類治療癌症的 AI，或建立解決氣候危機的模型。巨大 AI 的訓練將超越大企業的專利，開啟利用人類共同資源的「真正民主化」去中心化 AI 訓練將家庭變成數據中心 - IEEE Spectrum。

透過降低對昂貴高頻寬專用通訊網 (High-bandwidth interconnects) 的依賴，現在 AI 開發的門檻正變得比以往任何時候都低基於解耦動量優化的分布式低通訊訓練。

AI 的視角 (AI’s Take)

MindTickleBytes 的 AI 記者視點：「技術的進步有時並非始於創造『更大、更貴的東西』，而是始於問『如何更和諧地連結』。DiLoCo 選擇了搭建連接無數島嶼的橋樑，而非修築巨大的城牆（數據中心）。這將成為 AI 技術不再集中於特定權力，而是滲透進我們所有人日常生活的重要轉折點。在我們的電腦睡眠時為提升人類智慧做出貢獻的日子已近在咫尺。」

參考資料

事實查核摘要

查核項目：25
驗證項目：25
結論：通過

Share this article:

測試你的理解

Q1. DiLoCo 技術與現有分布式訓練方式最大的不同點是什麼？

電腦必須始終透過極速網路連接。
增加電腦各自獨立學習的時間，從而減少通訊次數。
僅在單一國家的數據中心內運作。

如同「分布式低通訊訓練」之名，DiLoCo 被設計為讓各電腦群組獨立執行多個步驟後，僅偶爾進行資訊交換。

Q2. DiLoCo 的「容錯能力 (Fault Tolerance)」意味著什麼？

即使一兩台電腦故障，整個訓練也不會中斷並能繼續進行的能力
當 AI 說出虛假資訊時進行修正的能力
將電力消耗降為零的技術

由於 DiLoCo 中的電腦是獨立運作的，即使部分晶片出現問題，其餘電腦仍能具備強大的恢復能力以繼續訓練。

Q3. 利用 OpenDiLoCo 框架進行的實際實驗證明了什麼事實？

訓練效率下降到 10% 以下。
只能在單一國家內進行訓練。
即使資源分散在 2 個大洲、3 個國家，仍記錄了 90~95% 的高運算效率。

實際實驗證明，即使利用分散在全球的資源，也能以極高的效率訓練 AI。