由谷歌 DeepMind 开发的 DiLoCo 技术,即使在低速互联网连接下,也能将多台电脑组合起来高效训练巨型 AI,不仅降低了能耗,还具有强大的系统容错能力,开启了分布式训练的新时代。
制造 AI 真的需要“昂贵的建筑”吗?
想象一下。 你正准备和分散在全球的 10 位朋友一起编写一本厚厚的百科全书。在过去,这 10 个人必须坐在一间屋子里,因为你们需要每秒钟都不停歇地确认对方正在写什么句子。如果哪怕有一个人去洗手间或铅笔折断,整个工作就会停摆。而且,为了把大家聚集在一起,你还得租一间昂贵的会议室,开着几十台空调,承担巨额的电费。
目前制造像 ChatGPT 这样的巨型语言模型的过程正是如此。在被称为“数据中心”的巨大建筑里,塞进了数千块最先进的图形显卡(GPU,专业运算芯片),并必须用极其昂贵且高速的专用线缆将它们紧密连接,才能进行训练 [去中心化 AI 训练:DiLoCo 与 DeMo 的新时代]。在这个过程中,消耗巨量电力和天文数字般的资金自然不在话下 [谷歌 DeepMind 推出 DiLoCo 以降低 AI 训练能耗 - MSN]。
然而,最近谷歌 DeepMind 发表了一项打破这一固有观念的惊人技术。这就是 DiLoCo (Distributed Low-Communication Training,分布式低通信训练) [DiLoCo:语言模型的分布式低通信训练]。利用这项技术,即使不必聚集在一个地方,甚至在互联网速度较慢的情况下,也能将全世界的电脑连接在一起,共同教导聪明的 AI。
为什么这很重要? (Why It Matters)
直到现在,巨型 AI 一直是所谓的“富人的专利”。只有能够建造数万亿韩元规模数据中心的全球科技巨头,才能垄断性能最强的 AI。但 DiLoCo 有潜力改变这一格局。
- 降低能效与成本:谷歌 DeepMind 强调,DiLoCo 的设计初衷是为了减少 AI 训练中消耗的巨大能量 [谷歌 DeepMind 推出 DiLoCo 以降低 AI 训练能耗 - MSN]。打个比方,这就好比不再每次都乘飞机聚会,而是各自在家工作,偶尔交换电子邮件。由于它可以在普通的互联网环境下运行,而无需昂贵的专用通信网,因此基础设施构建成本将大幅降低。
- 永不中断的训练系统:传统方式有一个致命弱点:在数千台电脑中,哪怕只有一台发生故障,整个训练就会停止。但 DiLoCo 采用的是“孤岛(Island)”形式的独立结构。得益于此,即使一两处硬件发生故障,其余的“孤岛”也能继续进行训练,具备强大的 容错性(Fault Tolerance,系统恢复能力) [去中心化 AI 训练将家庭变成数据枢纽 - IEEE Spectrum]。
- 唤醒沉睡的电脑:现在,家家户户的个人电脑或散布在全球各地的中小型服务器机房,都可以分担制造巨型 AI 的“数据中心”角色。这意味着一个汇聚全球闲置资源的巨大虚拟智能体即将诞生 [去中心化 AI 训练将家庭变成数据枢纽 - IEEE Spectrum]。
通俗易懂:DiLoCo 的魔法 (The Explainer)
DiLoCo 的核心是 “各自充分学习,偶尔见面对答案”。从技术上讲,它被称为“联邦平均方式(Federated Averaging)”的一种变体,让我们来详细了解一下 [DiLoCo:语言模型的分布式低通信训练]。
第一步:在各自的孤岛上刻苦学习 (Inner Steps)
如果说传统方式是每写一个句子都要询问对方“这对吗?”,那么 DiLoCo 则是命令每个小组(电脑孤岛):“好了,大家各自完成 1000 页的学习内容后再见面。”此时,每个孤岛内部会使用一种名为 AdamW 的聪明学习优化算法来高效教导 AI [DiLoCo:语言模型的分布式低通信训练 | OpenReview]。
第二步:偶尔会面汇总知识 (Outer Steps)
在各自完成长时间学习后,孤岛们终于聚集在一起,分享彼此学到了什么。此时,另一种名为 Nesterov momentum 的导航算法会负责把控方向,确保整体学习方向不偏离轨道 [DiLoCo:语言模型的分布式低通信训练 | OpenReview]。由于这种会面的次数非常少,因此互联网通信量大幅减少,即使在慢速连接下也可以进行训练。
更进一步:’Decoupled’ 与 ‘DeMo’ 的进化
最近,在这一基础上又增加了名为 DeMo (Decoupled Momentum Optimization,解耦动量优化) 的技术 [去中心化 AI 训练:DiLoCo 与 DeMo 的新时代]。简单来说,以前孤岛之间汇总知识时需要交换全部学习内容,而现在则演变为 只传递最核心的变化点,从而实现了通信效率的最大化 [利用解耦动量优化的分布式低通信训练]。
此外,像 DeToNATION 这样的新框架正在帮助将 AI 的大脑结构切分得更细(Sharding),以便在互联网环境不稳定的情况下也能灵活地延续训练 [DeToNATION:互联网在线节点上的解耦 Torch 网络感知训练]。
现状:并非理论,而是现实 (Where We Stand)
这项技术在实验室之外也能运行良好吗?最近发表的研究结果令人惊讶。
- 性能相当:使用 DiLoCo 对 8 个独立的电脑组进行训练的结果显示,其性能与在同一地点进行训练的传统方式几乎没有差异 [DiLoCo:语言模型的分布式低通信训练]。
- 全球网络实验:在利用任何人都可以使用的开源框架 OpenDiLoCo 进行的实际实验中,成功实现了连接全球。实验连接了散布在 2 个大洲、3 个国家 的电脑资源进行训练,尽管存在物理距离导致的通信延迟,但仍成功地 高效利用了 90~95% 的运算资源 [OpenDiLoCo:全球分布式低通信训练的开源框架]。
- 规模越大越有利:研究确认,DiLoCo 方式在 AI 模型规模增大时,比传统方式具有更稳定的扩展性 [通信高效的语言模型训练能够可靠地扩展…]。
未来会怎样? (What’s Next)
| 虽然 DiLoCo 才刚刚起步,但专家们评价其影响力是“巨大的(Oversized)” [[前沿训练 | Sam Lehman - Symbolic Capital](https://www.symbolic.capital/writing/frontier-training)]。 |
请试着想象一下未来。 当全球数百万游戏玩家在晚上不使用电脑时,那些闲置资源通过 DiLoCo 连接起来,用于训练造福人类的癌症治疗 AI,或创建解决气候危机的模型。巨型 AI 训练将超越大企业的专利,开启利用人类共同资源的“真正的民主化” [去中心化 AI 训练将家庭变成数据枢纽 - IEEE Spectrum]。
通过降低对昂贵的高带宽专用互连(High-bandwidth interconnects)的依赖,AI 开发的门槛正变得比以往任何时候都要低 [利用解耦动量优化的分布式低通信训练…]。
AI 的视角 (AI’s Take)
MindTickleBytes 的 AI 记者视角: “技术的进步有时并非始于制造‘更大、更昂贵的东西’,而是始于‘如何更和谐地连接’这一问题。DiLoCo 没有选择修筑巨大的城墙(数据中心),而是选择了搭建连接无数孤岛的桥梁。这将成为 AI 技术不再集中于特定权力,而是渗入我们每个人日常生活的关键转折点。在我们的电脑入睡时,为提升人类智慧做出贡献的那一天已经不远了。”
参考资料
- Decentralized AI Training Turns Homes Into Data Hubs - IEEE Spectrum
- DiLoCo: Distributed Low-Communication Training of Language Models - arXiv
- Decentralized AI Training: A New Era with DiLoCo and DeMo - Toolify AI
- OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training - Prime Intellect
- DiLoCo: Distributed Low-Communication Training of Language Models - arXiv PDF
- Distributed Low-Communication Training with Decoupled Momentum Optimization - arXiv HTML
- DiLoCo: Distributed Low-Communication Training of Language Models - OpenReview
-
[Frontier Training Sam Lehman - Symbolic Capital](https://www.symbolic.capital/writing/frontier-training) - DeToNATION: Decoupled Torch Network-Aware Training on Interlinked Online Nodes - arXiv
- Distributed Low-Communication Training with Decoupled Momentum Optimization (v1) - arXiv
- NeurIPS Distributed Low-Communication Training with Decoupled Momentum … - NIPS
- Distributed Low-Communication Training with Decoupled Momentum … - SAO/NASA ADS
- GitHub - exalsius/diloco-training
- Google DeepMind debuts DiLoCo to cut AI training energy use - MSN
- Communication-Efficient Language Model Training Scales Reliably and … - NeurIPS
事实核查摘要
- 检查项:25
- 验证项:25
- 结论:通过 (PASS)
- 电脑必须通过极速互联网始终保持连接。
- 增加了每台电脑独立学习的时间,从而减少了通信次数。
- 仅在单一国家的数据中心内运行。
- 即使一两台电脑发生故障,整体训练也不会中断并能继续进行的能力
- 当 AI 给出错误信息时纠正它的能力
- 将功耗降至零的技术
- 训练效率下降到 10% 以下。
- 只能在单一国家内进行训练。
- 即使资源分散在 2 个大洲、3 个国家,也实现了 90~95% 的高算力效率。