우리 집 컴퓨터가 거대 AI의 두뇌가 된다고? 구글 딥마인드가 선보인 'DiLoCo'의 혁신

전 세계에 흩어진 섬들이 빛의 선으로 연결되어 하나의 거대한 지능을 형성하는 추상적인 모습
AI Summary

구글 딥마인드가 개발한 DiLoCo 기술은 느린 인터넷 연결로도 여러 대의 컴퓨터를 묶어 거대 AI를 효율적으로 학습시키며, 에너지 소비를 줄이고 시스템 결함에도 강한 분산 학습의 새로운 시대를 열고 있습니다.

AI를 만드는 데 ‘비싼 건물’이 꼭 필요할까요?

상상해 보세요. 여러분이 전 세계에 흩어져 있는 친구 10명과 함께 아주 두꺼운 백과사전을 한 권 쓰기로 했습니다. 예전 같으면 이 10명이 반드시 한 방에 모여 앉아야 했습니다. 서로가 실시간으로 무슨 문장을 쓰는지 1초도 쉬지 않고 확인해야 했기 때문이죠. 만약 한 명이라도 화장실에 가거나 연필이 부러지면 전체 작업이 멈춰버렸습니다. 게다가 이들을 한데 모으기 위해 비싼 회의실을 빌리고, 수십 대의 에어컨을 돌리며 엄청난 전기료를 감당해야 했습니다.

현재 챗GPT(ChatGPT) 같은 거대 언어 모델을 만드는 과정이 딱 이렇습니다. ‘데이터 센터’라고 불리는 거대한 건물 안에 수천 대의 최첨단 그래픽 카드(GPU, 연산 전문 칩)를 몰아넣고, 이들을 아주 비싸고 빠른 전용 케이블로 촘촘하게 연결해야만 학습이 가능합니다 Decentralized AI Training: A New Era with DiLoCo and DeMo. 이 과정에서 막대한 전기와 천문학적인 돈이 들어가는 것은 물론입니다 Google DeepMind debuts DiLoCo to cut AI training energy use - MSN.

그런데 최근 구글 딥마인드(Google DeepMind)가 이 고정관념을 깨는 놀라운 기술을 발표했습니다. 바로 DiLoCo(Distributed Low-Communication Training, 분산 저통신 학습)라는 기술입니다 DiLoCo: Distributed Low-Communication Training of Language Models. 이 기술을 이용하면 굳이 한 장소에 모여 있지 않아도, 심지어 인터넷이 조금 느려도 전 세계의 컴퓨터를 하나로 묶어 똑똑한 AI를 가르칠 수 있습니다.

이게 왜 중요한가요? (Why It Matters)

지금까지 거대 AI는 소위 ‘부자들의 전유물’이었습니다. 수조 원대의 데이터 센터를 지을 수 있는 글로벌 빅테크 기업들만이 최고 성능의 AI를 독점할 수 있었죠. 하지만 DiLoCo는 이 판도를 바꿀 잠재력을 가지고 있습니다.

  1. 에너지와 비용 절감: 구글 딥마인드는 DiLoCo가 AI 학습에 들어가는 막대한 에너지를 줄이기 위해 설계되었다고 강조합니다 Google DeepMind debuts DiLoCo to cut AI training energy use - MSN. 비유하자면, 매번 비행기를 타고 모이는 대신 각자 집에서 일하다 가끔 이메일을 주고받는 식으로 바꾼 셈입니다. 값비싼 전용 통신망 대신 일반적인 인터넷 환경에서도 작동하기 때문에 인프라 구축 비용이 획기적으로 낮아집니다.
  2. 무너지지 않는 학습 시스템: 기존 방식은 컴퓨터 수천 대 중 단 한 대만 고장 나도 전체 학습이 멈추는 치명적인 약점이 있었습니다. 하지만 DiLoCo는 ‘섬(Island)’ 형태의 독립적인 구조를 가집니다. 덕분에 한두 군데의 하드웨어가 고장 나도 나머지 ‘섬’들이 학습을 계속할 수 있는 강력한 결함 허용(Fault Tolerance, 시스템 복구 능력) 기능을 갖추고 있습니다 Decentralized AI Training Turns Homes Into Data Hubs - IEEE Spectrum.
  3. 잠자는 컴퓨터의 부활: 이제 집집마다 있는 개인용 컴퓨터나 전 세계 곳곳에 흩어진 중소 규모 서버실들이 거대 AI를 만드는 ‘데이터 센터’ 역할을 분담할 수 있게 됩니다. 전 세계의 유휴 자원을 하나로 모으는 거대한 가상 지능이 탄생하는 셈이죠 Decentralized AI Training Turns Homes Into Data Hubs - IEEE Spectrum.

쉽게 이해하기: DiLoCo의 마법 (The Explainer)

DiLoCo의 핵심은 “각자 충분히 공부하고, 가끔 만나서 정답을 맞추기”입니다. 기술적으로는 ‘연합 평균 방식(Federated Averaging)’의 변형이라고 부르는데, 이를 조금 더 자세히 살펴보겠습니다 DiLoCo: Distributed Low-Communication Training of Language Models.

1단계: 각자의 섬에서 열공하기 (Inner Steps)

기존 방식이 문장 하나를 쓸 때마다 서로에게 “이거 맞아?”라고 물어보는 방식이었다면, DiLoCo는 각 그룹(컴퓨터 섬)에게 “자, 1,000페이지 분량의 공부를 각자 마치고 다시 만나자”라고 명령합니다. 이때 각 섬 안에서는 AdamW라는 똑똑한 학습 최적화 알고리즘이 AI를 효율적으로 가르칩니다 DiLoCo: Distributed Low-Communication Training of Language Models | OpenReview.

2단계: 가끔 만나서 지식 합치기 (Outer Steps)

한참 동안 자기만의 공부를 마친 섬들이 드디어 모여 서로 무엇을 배웠는지 공유합니다. 이때는 Nesterov momentum이라는 또 다른 길잡이 알고리즘이 전체적인 학습 방향이 엇나가지 않게 중심을 잡아줍니다 DiLoCo: Distributed Low-Communication Training of Language Models | OpenReview. 이 만남의 횟수가 매우 적기 때문에, 인터넷 통신량이 획기적으로 줄어들고 느린 연결로도 학습이 가능해지는 것입니다.

한 걸음 더: ‘Decoupled’와 ‘DeMo’의 진화

최근에는 여기서 더 나아가 DeMo(Decoupled Momentum Optimization, 분리된 모멘텀 최적화)라는 기술이 더해졌습니다 Decentralized AI Training: A New Era with DiLoCo and DeMo. 쉽게 말해서, 예전에는 섬들끼리 지식을 합칠 때 공부한 내용 전체를 다 주고받았다면, 이제는 가장 중요한 변화 포인트만 압축해서 전달하여 통신 효율을 극대화한 것입니다 Distributed Low-Communication Training with Decoupled Momentum Optimization.

또한 DeToNATION 같은 새로운 프레임워크는 AI의 뇌 구조를 더 잘게 쪼개서(Sharding), 인터넷 환경이 불안정한 상황에서도 유연하게 학습을 이어갈 수 있도록 돕고 있습니다 DeToNATION: Decoupled Torch Network-Aware Training on Interlinked Online Nodes.

현재 상황: 이론이 아닌 실제 (Where We Stand)

이 기술이 과연 연구실 밖에서도 잘 작동할까요? 최근 발표된 연구 결과들은 매우 놀랍습니다.

앞으로 어떻게 될까? (What’s Next)

DiLoCo는 이제 막 걸음마를 뗐지만, 그 영향력은 전문가들 사이에서 ‘막강(Oversized)’하다는 평가를 받고 있습니다 [Frontier Training Sam Lehman - Symbolic Capital](https://www.symbolic.capital/writing/frontier-training).

잠시 미래를 상상해 보세요. 전 세계 수백만 명의 게이머들이 밤에 컴퓨터를 쓰지 않을 때, 그 유휴 자원들이 DiLoCo로 연결되어 인류를 위한 암 치료 AI를 학습시키거나 기후 위기를 해결할 모델을 만드는 장면을 말이죠. 거대 AI 학습이 거대 기업의 전유물을 넘어, 인류 공통의 자원을 활용하는 ‘진정한 민주화’가 시작될 수 있습니다 Decentralized AI Training Turns Homes Into Data Hubs - IEEE Spectrum.

비싼 고대역폭 전용 통신망(High-bandwidth interconnects)에 대한 의존도를 낮춤으로써, 이제 AI 개발의 문턱은 그 어느 때보다 낮아지고 있습니다 Distributed Low-Communication Training with Decoupled Momentum ….

AI의 시선 (AI’s Take)

MindTickleBytes의 AI 기자 시선: “기술의 발전은 때로 ‘더 크고 더 비싼 것’을 만드는 것이 아니라, ‘어떻게 더 조화롭게 연결할 것인가’라는 질문에서 시작됩니다. DiLoCo는 거대한 성벽(데이터 센터)을 쌓는 대신, 수많은 섬을 연결하는 다리를 놓는 방식을 택했습니다. 이는 AI 기술이 특정 권력에 집중되지 않고, 우리 모두의 일상으로 스며드는 중요한 전환점이 될 것입니다. 우리의 컴퓨터가 잠든 사이 인류의 지성을 높이는 데 기여하는 날이 머지않았습니다.”

참고자료

  1. Decentralized AI Training Turns Homes Into Data Hubs - IEEE Spectrum
  2. DiLoCo: Distributed Low-Communication Training of Language Models - arXiv
  3. Decentralized AI Training: A New Era with DiLoCo and DeMo - Toolify AI
  4. OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training - Prime Intellect
  5. DiLoCo: Distributed Low-Communication Training of Language Models - arXiv PDF
  6. Distributed Low-Communication Training with Decoupled Momentum Optimization - arXiv HTML
  7. DiLoCo: Distributed Low-Communication Training of Language Models - OpenReview
  8. [Frontier Training Sam Lehman - Symbolic Capital](https://www.symbolic.capital/writing/frontier-training)
  9. DeToNATION: Decoupled Torch Network-Aware Training on Interlinked Online Nodes - arXiv
  10. Distributed Low-Communication Training with Decoupled Momentum Optimization (v1) - arXiv
  11. NeurIPS Distributed Low-Communication Training with Decoupled Momentum … - NIPS
  12. Distributed Low-Communication Training with Decoupled Momentum … - SAO/NASA ADS
  13. GitHub - exalsius/diloco-training
  14. Google DeepMind debuts DiLoCo to cut AI training energy use - MSN
  15. Communication-Efficient Language Model Training Scales Reliably and … - NeurIPS

FACT-CHECK SUMMARY

  • Claims checked: 25
  • Claims verified: 25
  • Verdict: PASS
이 글을 얼마나 이해했나요?
Q1. DiLoCo 기술이 기존의 분산 학습 방식과 다른 가장 큰 특징은 무엇인가요?
  • 컴퓨터들이 아주 빠른 인터넷으로 항상 연결되어 있어야 한다.
  • 컴퓨터들이 각자 독립적으로 공부하는 시간을 늘려 통신 횟수를 줄였다.
  • 오직 한 나라의 데이터 센터 내에서만 작동한다.
DiLoCo는 '분산 저통신 학습'이라는 이름처럼, 각 컴퓨터 그룹이 독립적으로 많은 단계를 수행한 뒤 가끔씩만 정보를 교환하도록 설계되었습니다.
Q2. DiLoCo의 '결함 허용(Fault Tolerance)' 능력이란 무엇을 의미하나요?
  • 한두 대의 컴퓨터가 고장 나도 전체 학습이 중단되지 않고 계속되는 능력
  • AI가 거짓 정보를 말했을 때 이를 바로잡는 능력
  • 전력 소모를 0으로 만드는 기술
DiLoCo는 컴퓨터들이 독립적으로 작동하므로, 일부 칩에 문제가 생겨도 나머지 컴퓨터들이 학습을 계속할 수 있는 강력한 복구 능력을 갖추고 있습니다.
Q3. OpenDiLoCo 프레임워크를 이용한 실제 실험에서 증명된 사실은 무엇인가요?
  • 학습 효율이 10% 미만으로 떨어졌다.
  • 단 한 나라 안에서만 학습이 가능했다.
  • 2개 대륙, 3개 국가에 흩어진 자원으로도 90~95%의 높은 연산 효율을 기록했다.
실제 실험을 통해 전 세계에 흩어진 자원을 활용하면서도 매우 높은 효율로 AI를 학습시킬 수 있음이 증명되었습니다.
우리 집 컴퓨터가 거대 AI의 두뇌가 된다고? 구...
0:00