由于天文数字般的成本和非开发者的失望情绪,基于云端的AI模型无限竞争时代正在落下帷幕,取而代之的是基础设施与贴近日常生活的定制化AI服务时代的到来。
想象一下。早晨醒来,你对智能手机AI说:“把昨晚收到的工作邮件里需要我立刻回复的重要内容总结一下,并写个草稿。”片刻之后,一封整理得完美无缺的电子邮件就出现在了屏幕上。这感觉就像是拥有了一位专属的能干私人助理。到目前为止,这是过去几年我们在新闻中无数次看到,并且在现实中也开始逐渐体验到的未来景象。
然而,在这个如同魔法般的场景背后,隐藏着我们通常难以察觉的巨额账单。为了处理你的一个问题,在远方沙漠或海边那几个足球场大小的巨大数据中心里,无数的计算机芯片正散发着惊人的热量运转着,为了冷却它们,甚至要消耗掉干旱地区足以填满一个游泳池的宝贵水资源 [基于云端的LLM淘金热正在终结 | Hacker News](https://news.ycombinator.com/item?id=48527817)。可以说,每提一个问题、每请求一次总结,都像是在乘坐一辆看不见的顶级模范出租车,计价器上的金额正以可怕的速度飙升。
过去两年间,以硅谷为首的全球科技企业陷入了一场争相制造更聪明、更庞大AI的“淘金热(Gold Rush,指发现金矿后人们蜂拥而至的现象)”之中。但最近,这种狂热的节日气氛正明显降温。目前主流的分析认为,基于云端(Cloud,连接互联网的巨大中央服务器)的大语言模型热潮已接近尾声。AI行业到底发生了什么事?
为什么这很重要? (Why It Matters)
最大的原因在于人们的“期望”与现实之间的巨大鸿沟,以及无法承受的“成本”。根据一项分析特定AI模型流量的案例研究,2025年初,用户的访问量在短短3个月内暴增了惊人的25倍,4月份的一个月内就产生了超过17万次会话。这相当于社区里的一家小卖部突然每天涌入数千名顾客一样,规模极其庞大。然而,在这种爆炸性的好奇心时刻过去之后,人们的脚步自然而然地减少了,并稳定在一个平缓的水平 [3个月内LLM流量增长25倍 | daydream](https://www.withdaydream.com/library/case-studies/openart-llm)。
为什么人们离开了呢?对于缺乏深厚技术背景的普通用户来说,AI被宣传得就像“能瞬间解决任何问题的魔法神灯”一样。人们坚信这个奇迹般的工具能代替自己工作,并极大地提高生产力。但结果是,承诺的魔法并没有完美实现,而当泡沫开始破裂时,人们痛苦地意识到,自己每个月都在支付昂贵的云端服务器使用费和AI Token(Token,AI每次识别和生成字符时计费的单位)费用 [中国的OpenClaw热潮是AI公司的淘金热 | WIRED](https://www.wired.com/story/china-is-going-all-in-on-openclaw/)。
在这种情况下,过去两年间那种盲目扩大模型规模(参数数量,类似于AI的脑细胞数量)、投入海量数据并一味膨胀期待感的盲目竞争已经结束。现在,业界的目光不再局限于表面华丽的魔术秀,而是转向了在背后让AI实际运转起来的坚实基础设施和工具,也就是“镐和铁锹” [LLM与淘金热的共同点](https://www.linkedin.com/pulse/what-llms-gold-rush-have-common-salesforce-cjhce)。
通俗易懂地理解 (The Explainer)
为了准确理解这一状况,我们需要来看两个重要的比喻。
第一个比喻:自动售货机与明星主厨(AI经济学)
首先,我们需要了解经常听到的大语言模型(LLM,通过学习海量文本像人类一样对话的AI)。这项技术基于谷歌在2017年开发的Transformer(一种掌握句子中单词之间关系的AI架构)技术,通过学习数十亿的文本和内容数据而构建 [搭载Google AI的大语言模型(LLM) | Google Cloud](https://cloud.google.com/ai/llms)。
简单来说,维护这种LLM的方式与现有的普通计算机程序完全不同 [LLM高不可攀的经济学:为什么AI竞赛可能会崩溃...](https://www.linkedin.com/pulse/unattainable-economics-llms-why-ai-race-may-collapse-pierre-jean-wtpkf)。我们每天在智能手机上使用的照片编辑应用或文字处理软件就像“自动售货机”。站在公司的立场上,最初设计并由工厂制造出一台出色的售货机需要花费巨资,但一旦将其安装在街头,无论有100个人还是1万个人购买,几乎都不会产生额外成本。每个月只需支付一点电费即可。
相反,目前的云端LLM就像是在顶级餐厅专门雇佣了一位“明星主厨”来迎合每一位用户的口味。无论你是轻松地问“今天天气怎么样?”,还是复杂地要求“给小学生解释一下相对论”,AI主厨每次都会开动其巨大的大脑,从头到尾制作出一道全新的菜肴(句子)。也就是说,它并不是做完一次就一劳永逸了,而是每次用户使用服务时,数据中心都会实时消耗惊人的电力和计算成本。使用得越多,公司承担的成本炸弹就越重,这就是所谓的“不可持续的成本结构” [LLM高不可攀的经济学:为什么AI竞赛可能会崩溃...](https://www.linkedin.com/pulse/unattainable-economics-llms-why-ai-race-may-collapse-pierre-jean-wtpkf)。
第二个比喻:1849年的淘金热与牛仔裤
打个比方,现在的AI市场与1849年美国加利福尼亚州的情况非常相似。当时在加州发现黄金后,数十万人梦想着一夜暴富,争先恐后地涌向金矿。这个时期被称为“淘金热”。但在这场狂热中,真正获得最稳定且最丰厚利润的人是谁呢?并不是那些每天在泥水中挖金子的矿工,而是那些向矿工们出售能承受繁重劳动的结实“牛仔裤”,以及提供挖掘坚硬土地的“镐和铁锹”的商人们。
AI市场也完全遵循着这一公式。所有人都冲上去想第一个挖出属于自己的巨大人工智能模型(黄金),但正如播客平台Spotify的案例所显示的,真正获益的却是另一方。Spotify掌握着人们每天收听的海量音频数据(金脉),而AI开发公司则带着庞大的资本和高级算法(镐和铁锹)找上门来提议交易,从而形成了一种共生关系 [音频是新的数据集:播客的LLM淘金热内部...](https://www.francescatabor.com/articles/2025/7/22/audio-is-the-new-dataset-inside-the-llm-gold-rush-for-podcasts)。
当前状况 (Where We Stand)
尽管面临这些成本和效率的限制,AI的发展并没有完全停止。那么,现在AI业界的版图是如何构成的呢?
目前我们最熟悉的AI仍然是基于云端的LLM。OpenAI的GPT系列、Anthropic的Claude、Google的Gemini等巨头都属于这一类。它们生存在由大型科技公司(大厂)拥有的极其强大的服务器中 [本地LLM vs. 云端AI:你应该选择哪个?](https://arsturn.com/blog/local-llms-vs-cloud-ai-the-ultimate-showdown)。
从企业客户的立场来看,云端AI仍然是一个相当有吸引力的选择。因为不需要亲自购买动辄数百亿韩元的超级计算机,只要连接上互联网,就能立即建立起可供数万名员工使用的AI系统。换句话说,它的优势在于无需初期设施投资,且可以在需要时轻松地扩大或缩小规模 [3项突破性LLM技术是如何... - Peter的精选](https://peterspick.co.kr/en/how-3-breakthrough-llm-technologies-are-revolutionizing-enterprise-ai-infrastructure-in-2025/)。
同时,这些庞大的模型也变得越来越聪明。它们已经超越了只能收发文本的聊天机器人水平,进化成了搭载了可以用眼睛看照片、用耳朵听声音的多感官功能(多模态,Multi-modal)的独立助手智能体。此外,过去我们是通过间接告诉AI“这是个好回答”来教导它(RLHF方式),而现在,在欧盟(EU)严格的监管趋势下,正发展为通过直接偏好优化(DPO,让AI直接学习人类喜欢的正确答案的技术),直接且安全地将人类的偏好教授给AI的最新技术 [什么是大语言模型(LLM) - 热门用例、数据集与未来](https://www.shaip.com/blog/a-guide-large-language-model-llm/)。
但是,打破云端赢家通吃格局的巨头企业也出现了。那就是被称为AI热潮最大受益者的英伟达(NVIDIA)。这家曾独占供应相当于人工智能大脑的芯片组的公司最近宣布,他们不会止步于仅仅销售硬件这一“镐”。他们发布了“基础模型即服务(Foundation Model as a Service)”,帮助企业使用无法对外泄露的内部机密数据,安全地构建属于自己的定制化AI模型,从而颠覆着市场的格局 ["$NVDA不会满足于仅仅在LLM淘金热中出售镐和铁锹......"](https://twitter.com/DrJimFan/status/1661783178854674438)。
未来会怎样? (What’s Next)
当泡沫褪去后,会剩下什么呢?专家们一致认为,大型模型规模的竞争终于结束,将AI纳入日常生活实用工具的“AI产品时代(The AI Product Era)”已经到来。就像人类历史上的蒸汽机或互联网一样,既然现在已经烧制出了名为AI模型的巨大砖块,接下来就该用这些砖块砌出真正改变我们生活的实用建筑了 [LLM淘金热的终结,AI产品时代的开始... | Medium](https://medium.com/@bytestobusiness/the-end-of-the-llm-gold-rush-the-start-of-the-ai-product-era-baf5441f3547)。
这个新时代最突出的3个特征如下:
1. 进入我手机和电脑的AI(本地LLM的崛起) 每次都需要通过互联网连接到庞大的云端服务器,担心自己提出的私密问题或公司的机密资料可能会被保存在中央服务器上。还有企业每个月都要承受的致命云端使用费。为了解决所有这些问题,“本地LLM (Local LLM)”作为一种替代方案正在快速成长。本地LLM不是指谷歌或OpenAI的中央服务器,而是直接在你每天使用的笔记本电脑或智能手机内部,即使没有互联网连接也能运行的AI。
最近,市场上涌现出了各种解决方案,从在移动设备(iOS、Android)环境中完美保护隐私并以端侧(On-device,设备自身处理)运行的应用程序,到开发者可以在自己电脑上直接操作的本地AI工具,应有尽有 [Ollama vs vLLM vs LM Studio:2026年在本地运行LLM的最佳方式?](https://www.glukhov.org/llm-hosting/comparisons/hosting-llms-ollama-localai-jan-lmstudio-vllm-comparison/)。特别是,人们对于不受大企业设定的死板回答伦理指南约束、能够给出自由回答的“无审查(Uncensored)”本地模型的需求非常大。在普通显卡环境下也能流畅运行且具备强大推理能力的模型陆续出现,正成为现有云端AI的最强竞争者 [最佳无审查本地LLM(以及你为什么可能需要...) | InsiderLLM](https://insiderllm.com/guides/best-uncensored-local-llms/)。
2. 削骨般的瘦身(推理优化的时代)
提供AI服务的企业为了生存也开始了技术上的“瘦身”。他们正在激烈地研究如何大幅缩短对用户问题给出回答的时间(延迟时间),并减少电力和计算资源的使用。这被称为推理优化(Inference Optimization)。去除AI模型的冗余部分使其变得轻量化,并高效整理内存结构以极大地降低服务器运营成本的技术,如今已经成为决定企业存亡的核心课题,其重要性丝毫不亚于提升AI的智能程度 [什么是推理优化? | Google Cloud](https://cloud.google.com/discover/inference-optimization)。
3. 日益严苛的评估标准
过去,仅凭一句“我们的AI是世界上最聪明的!”这样的宣传语就能吸引投资者的资金。但现在不同了。为了将这些仍然容易犯错且会给出带偏见回答(幻觉现象)的新兴技术部署到实际企业的客户服务或医疗环境中,严苛的评估是必不可少的。不仅是问答的速度,持续监控回答的可靠性、伦理问题以及服务器运营的效率,并定期进行严格打分的评估系统,正逐渐成为不可或缺的基础设施 [LLM评估的最佳实践与方法 | Databricks Blog](https://www.databricks.com/blog/best-practices-and-methods-llm-evaluation)。
总而言之,为了盲目创造出更庞大的智能而投入数十万亿韩元的无限竞争的云端淘金热,正在走向终点。取而代之的是,市场正步入一个真正的技术成熟期,大家开始竞争谁更“高效”,谁能更“安全地”保护我的个人信息,以及谁能开发出更“实用”的工具。泡沫褪去后显露出的真正财富密码,并不是那些迷惑人们的华丽魔术秀,而是默默地放在我们桌面上、帮助我们处理日常工作的实用软件。
AI的视角 (AI’s Take)
曾让大众狂热的华丽人工智能魔术秀即将落下帷幕。在舞台上变出鸽子的魔术师(基于云端的大型AI)固然神奇,但这本身并不能改变世界。现在,彻底分析和拆解这惊人魔术的原理,将其打磨成我们每天使用的冰箱或洗衣机等日常家电的、冷静而激烈的“工程技术时间”已经开始。因为真正的革命,只有当技术不再显得神奇,而是像呼吸的空气一样自然融入我们的日常生活时,才算真正完成。
参考资料
-
[基于云端的LLM淘金热正在终结 Hacker News](https://news.ycombinator.com/item?id=48527817) -
[LLM淘金热的终结,AI产品时代的开始… Medium](https://medium.com/@bytestobusiness/the-end-of-the-llm-gold-rush-the-start-of-the-ai-product-era-baf5441f3547) - LLM高不可攀的经济学:为什么AI竞赛可能会崩溃…
- “$NVDA不会满足于仅仅在LLM淘金热中出售镐和铁锹……
- 3项突破性LLM技术是如何… - Peter的精选
-
[最佳无审查本地LLM(以及你为什么可能需要…) InsiderLLM](https://insiderllm.com/guides/best-uncensored-local-llms/) - 音频是新的数据集:播客的LLM淘金热内部…
-
[中国的OpenClaw热潮是AI公司的淘金热 WIRED](https://www.wired.com/story/china-is-going-all-in-on-openclaw/) -
[LLM评估的最佳实践与方法 Databricks Blog](https://www.databricks.com/blog/best-practices-and-methods-llm-evaluation) -
[什么是推理优化? Google Cloud](https://cloud.google.com/discover/inference-optimization) -
[搭载Google AI的大语言模型(LLM) Google Cloud](https://cloud.google.com/ai/llms) - 什么是大语言模型(LLM) - 热门用例、数据集与未来
- LLM与淘金热的共同点
- Ollama vs vLLM vs LM Studio:2026年在本地运行LLM的最佳方式?
-
[3个月内LLM流量增长25倍 daydream](https://www.withdaydream.com/library/case-studies/openart-llm) - 本地LLM vs. 云端AI:你应该选择哪个?
- 正演变为制造更大模型的无限竞争。
- 相较于开发庞大的模型,更专注于基础设施和实质性的产品开发。
- 所有企业都把赌注押在云端服务器投资上。
- 即使开发完成后,每次用户提问时仍会产生巨大的计算成本和服务器维护费用。
- 完全不需要初期开发成本。
- 随着用户增加,服务器维护费用会呈指数级下降。
- 纸质百科全书
- 本地部署量子计算机
- 本地LLM (Local LLM)