AI评估初创公司为何屡屡失败？

AI Summary

AI评估初创公司失败的原因在于，大型研究机构不愿将核心评估权外包，加之服务的高延迟以及客户自身构建评估系统的能力提升。

想象一下。你投入数亿元聘请顶级厨师，想要开设一家完美的餐厅。如果每次都要联系外部专业机构来评估厨师的烹饪水平，问他们“我们的厨师现在表现如何？”，那会怎样？在等待答复的过程中，客人早已离去，改进食谱的最佳时机也错过了。

最近，人工智能(AI)行业也在面临类似的困扰。随着开发AI模型的企业如雨后春笋般涌现，衡量这些模型聪明程度的“AI评估(Eval)初创公司”也随之兴起。但令人惊讶的是，其中很大一部分未能成功立足并逐渐消失。究竟为什么？是运气不好，还是AI评估这一商业模式本身就存在结构性问题？

为什么这很重要？

随着AI技术的发展，AI输出答案的“准确性”现在直接关系到企业的生存。如果AI提供虚假信息或偏见性回答，将会对企业形象造成重大打击。在这种背景下，AI评估服务曾被视为企业的“久旱甘霖”。然而，评估初创公司的持续失败意味着，我们所期待的“AI质量管理”并非引入单一服务就能解决的问题。这也向那些试图利用AI服务的普通企业提出了时代课题：必须自主培养技术能力。

轻松理解

简单来说，AI评估初创公司所经历的困境可以比作“指南针主权”问题。

对于开发AI模型的研究机构（如大型科技公司等）而言，“评估”不仅仅是打分的过程。评估在确定AI应向何处发展方面发挥着重要的“指南针”作用。正如《为何评估初创公司如此之少？》所言，巨型研究机构并不希望将自己设定的核心研究方向完全交给外部企业。

此外，“速度”也是一个大问题。AI模型的开发是以极快的速度进行的。如果将评估外包，就会产生等待评估结果的“延迟(latency，反应速度变慢的现象)”。这种延迟对于视开发速度为生命的开发者来说是难以忍受的。正如《为何评估初创公司如此之少？》所指出的，在评估外包过程中产生的这种延迟，成为了阻碍模型开发速度的致命绊脚石。

最后是“专业性”的差距。人工智能领域的专家内森·兰伯特(Nathan Lambert)通过X（原Twitter）建议，优秀的评估专业人员与其在评估公司做打分工作，不如专注于直接改善AI能力的“事后训练(post-training，模型开发后优化特定性能的学习过程)”，那样更有价值。

当前状况

目前，AI评估市场处于非常不稳定的状态。根据约翰·黄(John Hwang)的分析，许多评估初创公司往往不专注于真正需要技术深度的“上游（基础工程）”过程，即构建具有代表性的测试数据集（评估用数据集合）或设计复杂的评估逻辑，而是倾向于专注于美化外观UI（用户界面）。却又想向企业收取高昂费用，自然遭到客户冷遇。

此外，直接开发或运营AI的客户公司很快就会结束学习并自主构建评估系统。正如内森·兰伯特的指出，客户很快就会“毕业”并采用自主评估系统，因此初创公司很难持续获利。

从统计学角度来看，这种失败更为惨痛。研究表明，初创公司的10年存活率不足10%，连投入的资本都无法回收而失败的情况占总数的四分之三。特别是在英国，有统计显示初创公司3年内的失败概率高达50%~60%。2025年创业失败率。

未来走向

专家建议，评估初创公司若想生存，必须摆脱单纯的“评估服务”框架。正如Hacker News讨论中提出的意见，与其简单地说“请把评估交给我们”，不如进化为提供“人工智能验证工具链(verification toolchain，用于AI验证的一系列工具)”，帮助开发者自主构建评估系统。

MindTickleBytes AI记者观点

归根结底，AI评估与其说是一个单纯的服务市场，不如说正在过渡到“技术内化（无需外部帮助自主处理技术）”的领域。对于处理AI的企业而言，与其依赖外部评估机构，不如具备能够根据自身目标制定精确试题并评分的能力，这本身就将成为核心竞争力。

参考资料

Why are there so few independent eval startups? Thomas I. Liao (https://thomasliao.com/eval-startups)
Nathan Lambert on X: “Most of these eval companies should be non profits or non VC path companies.” / X (https://x.com/natolambert/status/1925327027600859426)
Evals Startups Are Not Enterprise Ready - by John Hwang (https://nextword.substack.com/p/evals-startups-want-enterprise-money)
Why Startups Fail (2026) Lessons From 200 Founders Wilbur Labs (https://www.wilburlabs.com/blueprints/why-startups-fail)
Why eval startups fail (2025) - Hacker News (https://news.ycombinator.com/item?id=48637868)
Statistics on Startup Failure Rates (2025) - LinkedIn (https://www.linkedin.com/pulse/statistics-startup-failure-rates-2025-altaf-rahman–orn1c)

Share this article:

测试你的理解

Q1. AI评估初创公司提供的服务导致模型开发速度减慢的主要原因是什么？

UI设计的复杂性
引入外部评估带来的延迟(latency)时间
数据安全法规

引入外部评估会在开发循环中增加不必要的等待时间，从而在以速度为核心的模型开发现场导致致命的延迟。

Q2. 文中提到的AI评估初创公司面临的根本困难是什么？

UI/UX设计不足
获取高质量数据及定义逻辑等“上游”工作的难度
宣传及营销不足

评估初创公司往往无法解决获取精确测试数据及设计有意义评估逻辑这一难题，而不仅仅是把界面(UI)设计得漂亮。

Q3. 大型AI研究机构不愿将评估工作外包的原因是什么？

资金不足
希望亲自设定并控制自身的研究方向
安全法规定

研究评估是决定技术发展方向的核心业务，因此巨型研究机构不愿将此权限外包。