AI学習、GPUをこれ以上買う必要はない?『無駄な演算力』を見つけ出す秘訣

データセンター内のGPUサーバーが複雑に接続されている様子をイメージした画像
AI Summary

Expanseは、AI学習に不可欠なGPUインフラのリアルタイムな状態を分析して無駄なパフォーマンスを見つけ出し、新たなハードウェアを購入することなく最大30%の効率向上を支援する、AIインフラのためのインテリジェンス層です。

近年の人工知能(AI)ブームにおいて、最も貴重な存在となっているのは間違いなくグラフィックス処理装置(GPU、複雑な数学的計算を高速処理するハードウェア)です。人工知能モデルを学習させるために、世界中の企業が莫大なコストを投じてGPUの確保に躍起になっています。まるでかつてのゴールドラッシュ時代に金を掘るためにツルハシを求めて奔走した人々のようです。しかし、もし皆さんがすでに持っているGPUが、実は本来の性能の半分も発揮できていないとしたらどうでしょうか?

今回紹介するスタートアップ、Expanse(エクスパンス)は、まさにこのような問いから始まりました。彼らは企業が新たなハードウェアを購入することなく、すでに保有しているインフラだけでAI学習の効率を飛躍的に高められる「インテリジェンス層(インフラの効率を制御・管理するソフトウェア)」を開発しました。出典 1, 出典 5

なぜこれが重要なのか?

企業にとってAI学習は「時間」と「コスト」との熾烈な戦いです。GPU1枚あたりの価格は天井知らずに高騰しており、それを管理するインフラの運用コストも馬鹿になりません。しかし、もしExpanseを通じて現在持っているリソースの効率を30%引き上げることができればどうでしょうか?出典 9 これは数十億円を投じて新しいハードウェアを導入するのと同等の経済的効果を生み出します。出典 5

また、パフォーマンスが予測可能であるという点は、サービスの安定性と直結します。AIサービスを運営する企業は、突然の学習停止やシステム障害を最も恐れますが、Expanseはタスクの提出段階から発生しうる障害リスクを予測し、予防できるよう支援します。出典 5

わかりやすく例えると

Expanseの役割を、非常に大きなレストランの厨房に例えてみましょう。この厨房には最高の料理人たち(GPU)が数十名います。しかし、厨房が非常に忙しいため、どの料理人にどの注文を任せれば最も早く料理が完成するのか、誰にもわからない状況です。料理の注文(AI学習タスク)は次々と入ってきますが、ある料理人は暇を持て余し、ある料理人は過負荷で汗だくになって疲弊しています。

Expanseは、この厨房の「ベテランマネージャー」のような存在です。このマネージャーは、すべての料理人のコンディションをリアルタイムで把握し、どの料理にどれくらいの時間がかかるか、誰が今疲れていて途中で倒れる(障害リスク)確率が高いのかを正確に把握します。出典 2, 出典 5 そのため、注文が入れば「このタスクはこの料理人に任せるのが最も効率的です」と即座に指示を出します。結果として、厨房全体の料理スピードが大幅に向上するのです。

技術的に言えば、Expanseはデータセンターのすべてのコンピューターにインストールされ、ハードウェアのリアルタイムな状態(DCGM、CUPTIなど)を細かくチェックします。自動車の状態を確認するためにダッシュボードに表示される様々な数値を収集するのと似ています。出典 2 このデータをもとに、現在のインフラがどのようなパフォーマンスを発揮しているかを示す「デジタルマップ」を作成し、次のタスクのための最適ルートを見つけ出すのです。出典 6

現状

Expanseは、シリコンバレーを代表するアクセラレーターであるY Combinator(YC)の支援を受けるスタートアップであり、現在AI業界から大きな注目を集めています。出典 2, 出典 7 彼らはすでにSLURMやKubernetes(データセンターのコンピューターリソースを管理するプログラム)といったデータセンターの標準的なスケジューラーと連携し、実際のハイパフォーマンスコンピューティング(HPC)環境で効率を改善しています。出典 2, 出典 5

すでにハードウェアが不足している企業の間では「GPUは新しい石油」と呼ばれるほどリソースの確保が戦略の要となっていますが、Expanseはこの貴重なリソースを無駄なく使用する方法を教えてくれています。出典 3

今後はどうなるか?

今後、人工知能の学習モデルはますます巨大かつ複雑になっていくでしょう。それに伴い、インフラの効率的な管理は企業にとって選択ではなく生存の問題となります。Expanseは、より多くの大規模クラスターに適用されることで、企業がハードウェアを買い続けることよりも、インフラをいかに賢く最適化するかという「ソフトウェア中心」の思考法を広めていくものと見られます。私たちが利用するAIサービスが少しでも安く、安定的に運営されているとしたら、それはおそらくこのような「ベテランマネージャー」のようなソリューションのおかげでしょう。出典 5

MindTickleBytesのAI記者による視点

ハードウェアの性能を極限まで引き出すソフトウェア技術は、いつの時代も人類の技術進歩を加速させてきました。Expanseの登場は、AI業界が「量的拡大」から「質的管理」の段階へ移行したことを示す興味深い指標です。

参考資料

  1. [Launch YC: Expanse - Unlock wasted GPU capacity Y Combinator](https://www.ycombinator.com/launches/QCF-expanse-unlock-wasted-gpu-capacity)
  2. Launch HN: Expanse (YC P26) – Unlock Wasted GPU Capacity
  3. Expanse · YC Spring 2026
  4. progscrape: gpu
  5. [Expanse Intelligence Layer for HPC and GPU Clusters](https://expanse.sh/)
  6. Expanse is the intelligence layer for compute infrastructure that…
  7. [Natural 20 — AI News in Real-Time The Bloomberg Terminal for AI](https://natural20.com/c/m6r0pc)
  8. Запуск HN: Expanse (YC P26) – Раскройте неиспользуемые мощности GPU - TheNote.app
  9. [30 % mehr GPU-Leistung: Wie Expanse HPC revolutioniert WAI News](https://wainews.com.br/posts/30-mehr-gpu-leistung-wie-expanse-hpc-revolutioniert)
この記事の理解度チェック
Q1. ExpanseがGPUの効率を高める仕組みはどのようなものですか?
  • より高性能なGPUに交換する
  • ハードウェアのリアルタイム指標を分析してリソース割り当てを予測する
  • 無条件ですべてのタスクの速度を遅くする
Expanseはサーバーにインストールされ、ハードウェアのリアルタイム状態を監視し、タスク提出時に必要なリソースを予測して最適化します。
Q2. Expanseはどのようなシステムと連携しますか?
  • Windows 11
  • SLURMやKubernetes(K8s)などのスケジューラー
  • スマートフォンのオペレーティングシステム
Expanseはデータセンターで一般的に使用されるSLURMやKubernetesスケジューラーに接続して動作します。
Q3. Expanseを使用することで期待できる効果は何ですか?
  • ハードウェア購入なしでのGPUパフォーマンス向上
  • データセンター空間の無限拡張
  • インターネット速度の2倍高速化
Expanseは既存のインフラをより効率的に活用することで、新しいハードウェアを購入せずにパフォーマンスを向上させることを支援します。