「我家電腦也能成為巨大 AI 的大腦?」Google DeepMind 展示的「DiLoCo」創新技術

全球分散的島嶼透過光線連接,形成一個巨大智慧體的抽象景象
AI Summary

Google DeepMind 開發的 DiLoCo 技術,即使在網路連接較慢的情況下,也能將多台電腦連結起來高效訓練巨大 AI,開啟了降低能耗且具備強大系統容錯能力的分布式訓練新時代。

打造 AI 真的需要「昂貴的建築」嗎?

想像一下。 您正與分散在全球的 10 位朋友共同編寫一本非常厚實的百科全書。過去,這 10 個人必須聚在同一個房間裡,因為每個人都必須每一秒鐘不停地確認彼此正在寫什麼句子。如果其中任何一個人去上廁所或鉛筆斷了,整個工作就會停擺。此外,為了讓大家聚在一起,還必須租用昂貴的會議室,運作數十台冷氣,負擔巨額的電費。

現在製造像 ChatGPT 這樣的巨大語言模型的過程正是如此。必須在被稱為「數據中心」的巨大建築中,塞入數千張最尖端的繪圖卡(GPU,運算專用晶片),並用非常昂貴且快速的專用電纜將它們緊密連接,才能進行訓練 去中心化 AI 訓練:DiLoCo 與 DeMo 的新時代。在這個過程中,投入巨額電力與天文數字般的資金是理所當然的 Google DeepMind 推出 DiLoCo 以降低 AI 訓練能耗 - MSN

但最近,Google DeepMind 發布了一項打破這種固定觀念的驚人技術。那就是 DiLoCo (Distributed Low-Communication Training,分布式低通訊訓練) DiLoCo:語言模型的分布式低通訊訓練。利用這項技術,即使不聚集在同一個地方,甚至網路速度稍慢,也能將全球的電腦連結在一起來教導聰明的 AI。

這為何重要? (Why It Matters)

直到現在,巨大 AI 一直被視為所謂的「富人專利」。只有能建造數兆韓元規模數據中心的全球大科技公司,才能壟斷最高性能的 AI。但 DiLoCo 有潛力改變這一局面。

  1. 節能與成本降低:Google DeepMind 強調 DiLoCo 的設計初衷是為了減少 AI 訓練所需的大量能源 Google DeepMind 推出 DiLoCo 以降低 AI 訓練能耗 - MSN。比喻來說,這就像是從每次都要搭飛機集合,改成各自在家工作、偶爾互傳電子郵件的方式。由於它可以在一般的網路環境下運作,而非昂貴的專用通訊網,基礎設施的建置成本將大幅下降。
  2. 不崩潰的訓練系統:傳統方式中,數千台電腦中只要有一台故障,整個訓練就會停止,這是一個致命的弱點。但 DiLoCo 採用「島嶼 (Island)」形式的獨立結構。因此,即使一兩個地方的硬體故障,其餘的「島嶼」仍能繼續訓練,具備強大的 容錯能力 (Fault Tolerance,系統恢復能力) 去中心化 AI 訓練將家庭變成數據中心 - IEEE Spectrum
  3. 閒置電腦的復活:現在,家家戶戶的個人電腦或遍布全球的中小規模伺服器機房,都能分擔打造巨大 AI 的「數據中心」角色。這等於是誕生了一個將全球閒置資源匯聚在一起的巨大虛擬智慧體 去中心化 AI 訓練將家庭變成數據中心 - IEEE Spectrum

輕鬆理解:DiLoCo 的魔法 (The Explainer)

DiLoCo 的核心是 「各自充分學習,偶爾見面對答案」。技術上稱為「聯邦平均方式 (Federated Averaging)」的變形,讓我們來深入了解 DiLoCo:語言模型的分布式低通訊訓練

第 1 步:在各自的島嶼努力學習 (Inner Steps)

如果說傳統方式是每寫一個句子就要問對方「這對嗎?」,DiLoCo 則是對每個群組(電腦島嶼)下令:「好,大家各自完成 1,000 頁的學習後再見面。」此時,每個島嶼內部會使用名為 AdamW 的聰明訓練優化演算法來高效教導 AI DiLoCo:語言模型的分布式低通訊訓練 | OpenReview

第 2 步:偶爾見面整合知識 (Outer Steps)

獨自學習一段時間後的島嶼們終於聚在一起,分享彼此學到的內容。這時會由另一個名為 Nesterov 動量 (Nesterov momentum) 的引導演算法負責把關,確保整體的學習方向不會偏差 DiLoCo:語言模型的分布式低通訊訓練 | OpenReview。由於這種會面次數非常少,網路通訊量大幅減少,即使在慢速連接下也能進行訓練。

進一步:’Decoupled’ 與 ‘DeMo’ 的進化

最近,這項技術進一步發展,加入了 DeMo (Decoupled Momentum Optimization,解耦動量優化) 技術 去中心化 AI 訓練:DiLoCo 與 DeMo 的新時代簡單來說,以前島嶼間整合知識時會交換全部的學習內容,現在則是 只壓縮傳遞最重要的變化點,將通訊效率最大化 基於解耦動量優化的分布式低通訊訓練

此外,像是 DeToNATION 這樣的新框架正將 AI 的大腦結構進一步細分(Sharding),幫助在網路環境不穩定的情況下也能靈活地延續訓練 DeToNATION:互連線上節點上的解耦 Torch 網路感知訓練

目前狀況:非理論而是現實 (Where We Stand)

這項技術在實驗室外是否也能運作良好?最近發布的研究結果令人驚訝。

未來會如何發展? (What’s Next)

雖然 DiLoCo 才剛起步,但其影響力已被專家評為「強大 (Oversized)」 [前沿訓練 Sam Lehman - Symbolic Capital](https://www.symbolic.capital/writing/frontier-training)。

請試著想像一下未來。 當全球數百萬名玩家在晚上不使用電腦時,那些閒置資源透過 DiLoCo 連結起來,訓練為人類治療癌症的 AI,或建立解決氣候危機的模型。巨大 AI 的訓練將超越大企業的專利,開啟利用人類共同資源的「真正民主化」 去中心化 AI 訓練將家庭變成數據中心 - IEEE Spectrum

透過降低對昂貴高頻寬專用通訊網 (High-bandwidth interconnects) 的依賴,現在 AI 開發的門檻正變得比以往任何時候都低 基於解耦動量優化的分布式低通訊訓練

AI 的視角 (AI’s Take)

MindTickleBytes 的 AI 記者視點: 「技術的進步有時並非始於創造『更大、更貴的東西』,而是始於問『如何更和諧地連結』。DiLoCo 選擇了搭建連接無數島嶼的橋樑,而非修築巨大的城牆(數據中心)。這將成為 AI 技術不再集中於特定權力,而是滲透進我們所有人日常生活的重要轉折點。在我們的電腦睡眠時為提升人類智慧做出貢獻的日子已近在咫尺。」

參考資料

  1. 去中心化 AI 訓練將家庭變成數據中心 - IEEE Spectrum
  2. DiLoCo:語言模型的分布式低通訊訓練 - arXiv
  3. 去中心化 AI 訓練:DiLoCo 與 DeMo 的新時代 - Toolify AI
  4. OpenDiLoCo:全球分布式低通訊訓練的開源框架 - Prime Intellect
  5. DiLoCo:語言模型的分布式低通訊訓練 - arXiv PDF
  6. 基於解耦動量優化的分布式低通訊訓練 - arXiv HTML
  7. DiLoCo:語言模型的分布式低通訊訓練 - OpenReview
  8. [前沿訓練 Sam Lehman - Symbolic Capital](https://www.symbolic.capital/writing/frontier-training)
  9. DeToNATION:互連線上節點上的解耦 Torch 網路感知訓練 - arXiv
  10. 基於解耦動量優化的分布式低通訊訓練 (v1) - arXiv
  11. NeurIPS 基於解耦動量優化的分布式低通訊訓練 - NIPS
  12. 基於解耦動量優化的分布式低通訊訓練 - SAO/NASA ADS
  13. GitHub - exalsius/diloco-training
  14. Google DeepMind 推出 DiLoCo 以降低 AI 訓練能耗 - MSN
  15. 高通訊效率的語言模型訓練可可靠地擴展且… - NeurIPS

事實查核摘要

  • 查核項目:25
  • 驗證項目:25
  • 結論:通過
測試你的理解
Q1. DiLoCo 技術與現有分布式訓練方式最大的不同點是什麼?
  • 電腦必須始終透過極速網路連接。
  • 增加電腦各自獨立學習的時間,從而減少通訊次數。
  • 僅在單一國家的數據中心內運作。
如同「分布式低通訊訓練」之名,DiLoCo 被設計為讓各電腦群組獨立執行多個步驟後,僅偶爾進行資訊交換。
Q2. DiLoCo 的「容錯能力 (Fault Tolerance)」意味著什麼?
  • 即使一兩台電腦故障,整個訓練也不會中斷並能繼續進行的能力
  • 當 AI 說出虛假資訊時進行修正的能力
  • 將電力消耗降為零的技術
由於 DiLoCo 中的電腦是獨立運作的,即使部分晶片出現問題,其餘電腦仍能具備強大的恢復能力以繼續訓練。
Q3. 利用 OpenDiLoCo 框架進行的實際實驗證明了什麼事實?
  • 訓練效率下降到 10% 以下。
  • 只能在單一國家內進行訓練。
  • 即使資源分散在 2 個大洲、3 個國家,仍記錄了 90~95% 的高運算效率。
實際實驗證明,即使利用分散在全球的資源,也能以極高的效率訓練 AI。