Expanse 是一个 AI 基础设施智能层,通过分析 AI 训练中不可或缺的 GPU 基础设施的实时状态来发现被浪费的性能,帮助企业在无需购买新硬件的情况下,将效率提升最高 30%。
在近期的人工智能(AI)热潮中,最炙手可热的无疑是图形处理器(GPU,即能快速处理复杂数学运算的硬件)。为了训练人工智能模型,全球各地的企业都在不惜重金抢购 GPU,这就像当年的淘金热时期人们为了采金而疯狂寻找锄头一样。但如果告诉你,你手中现有的 GPU 其实连一半的性能都没发挥出来呢?
今天介绍的这家初创公司 Expanse 就是基于这样一个疑问而诞生的。他们开发了一种“智能层”(即用于控制和管理基础设施效率的软件),旨在让企业无需购买新硬件,仅通过现有的基础设施就能大幅提升 AI 训练效率。参考资料 1, 参考资料 5
为什么这很重要?
对于企业而言,AI 训练是一场与“时间”和“成本”的激烈竞争。每张 GPU 的价格一路飙升,维护基础设施的运营成本也相当高昂。但如果通过 Expanse 能将现有资源的效率再提升 30%,会怎样呢?参考资料 9 这带来的经济效益相当于投入数十亿元购买新硬件。参考资料 5
此外,性能的可预测性直接关系到服务的稳定性。运营 AI 企业的公司最担心突然的任务中断或系统故障,而 Expanse 能从任务提交阶段开始预测潜在的故障风险,从而帮助预防问题的发生。参考资料 5
浅显易懂的解释
我们可以将 Expanse 的角色比作一家大型餐厅的厨房。这个厨房里有几十名顶尖厨师(GPU)。但由于厨房太忙,谁也不知道该把订单交给哪位厨师才能最快完成。订餐(AI 训练任务)源源不断地进来,有的厨师在闲着,有的却超负荷运转忙得汗流浃背。
Expanse 就像这个厨房的“资深经理”。经理会实时查看每位厨师的状态,准确把握每道菜需要的时间,以及谁现在疲惫不堪、中途倒下(发生故障)的概率较高。参考资料 2, 参考资料 5 因此,一旦有订单进来,它会立即下达指令:“将此任务交给这位厨师最高效。”最终,整个厨房的烹饪速度大大加快。
技术上,Expanse 会安装在数据中心的所有计算机上,仔细检查硬件的实时状态(DCGM、CUPTI 等)。这类似于为了确认汽车状态而收集仪表盘上显示的各种数值。参考资料 2 基于这些数据,它会制作一份关于当前基础设施性能的“数字地图”,并为接下来的任务寻找最佳路径。参考资料 6
当前状况
Expanse 是一家得到硅谷顶级加速器 Y Combinator (YC) 支持的初创公司,目前在 AI 行业备受瞩目。参考资料 2, 参考资料 7 他们已经与 SLURM 或 Kubernetes(用于管理数据中心计算机资源的程序)等数据中心标准调度程序联动,在实际的高性能计算(HPC)环境中提升了效率。参考资料 2, 参考资料 5
在硬件本就紧缺的企业中间,“GPU 是新时代的石油”这一说法广为流传,资源获取是战略核心,而 Expanse 正在教授如何不浪费这些珍贵的资源。参考资料 3
未来展望
未来,人工智能训练模型将会变得越来越大、越来越复杂。随之而来的是,基础设施的高效管理将成为企业的生存问题,而非选答题。随着 Expanse 在更多大规模集群中得到应用,它将引领一种“软件中心化”的思维方式,即企业不再仅仅靠买入硬件,而是更聪明地优化现有基础设施。我们所使用的 AI 服务能运行得更便宜、更稳定,大概都要归功于这类“资深经理”式的解决方案。参考资料 5
MindTickleBytes AI 记者视角
将硬件性能发挥到极致的软件技术,一直都在加速人类的技术进步。Expanse 的出现是一个有趣的指标,显示 AI 产业已经从“量变扩张”进入了“质变管理”阶段。
参考资料
-
[Launch YC: Expanse - Unlock wasted GPU capacity Y Combinator](https://www.ycombinator.com/launches/QCF-expanse-unlock-wasted-gpu-capacity) - Launch HN: Expanse (YC P26) – Unlock Wasted GPU Capacity
- Expanse · YC Spring 2026
- progscrape: gpu
-
[Expanse Intelligence Layer for HPC and GPU Clusters](https://expanse.sh/) - Expanse is the intelligence layer for compute infrastructure that…
-
[Natural 20 — AI News in Real-Time The Bloomberg Terminal for AI](https://natural20.com/c/m6r0pc) - Запуск HN: Expanse (YC P26) – Раскройте неиспользуемые мощности GPU - TheNote.app
-
[30 % mehr GPU-Leistung: Wie Expanse HPC revolutioniert WAI News](https://wainews.com.br/posts/30-mehr-gpu-leistung-wie-expanse-hpc-revolutioniert)
- 更换更强大的 GPU
- 分析实时硬件指标以预测资源分配
- 强制降低所有任务的速度
- Windows 11
- SLURM 或 Kubernetes (K8s) 等调度程序
- 智能手机操作系统
- 无需购买硬件即可提升 GPU 性能
- 无限扩展数据中心空间
- 互联网速度翻倍