AI评估初创公司失败的原因在于,大型研究机构不愿将核心评估权外包,加之服务的高延迟以及客户自身构建评估系统的能力提升。
想象一下。你投入数亿元聘请顶级厨师,想要开设一家完美的餐厅。如果每次都要联系外部专业机构来评估厨师的烹饪水平,问他们“我们的厨师现在表现如何?”,那会怎样?在等待答复的过程中,客人早已离去,改进食谱的最佳时机也错过了。
最近,人工智能(AI)行业也在面临类似的困扰。随着开发AI模型的企业如雨后春笋般涌现,衡量这些模型聪明程度的“AI评估(Eval)初创公司”也随之兴起。但令人惊讶的是,其中很大一部分未能成功立足并逐渐消失。究竟为什么?是运气不好,还是AI评估这一商业模式本身就存在结构性问题?
为什么这很重要?
随着AI技术的发展,AI输出答案的“准确性”现在直接关系到企业的生存。如果AI提供虚假信息或偏见性回答,将会对企业形象造成重大打击。在这种背景下,AI评估服务曾被视为企业的“久旱甘霖”。然而,评估初创公司的持续失败意味着,我们所期待的“AI质量管理”并非引入单一服务就能解决的问题。这也向那些试图利用AI服务的普通企业提出了时代课题:必须自主培养技术能力。
轻松理解
简单来说,AI评估初创公司所经历的困境可以比作“指南针主权”问题。
对于开发AI模型的研究机构(如大型科技公司等)而言,“评估”不仅仅是打分的过程。评估在确定AI应向何处发展方面发挥着重要的“指南针”作用。正如《为何评估初创公司如此之少?》所言,巨型研究机构并不希望将自己设定的核心研究方向完全交给外部企业。
此外,“速度”也是一个大问题。AI模型的开发是以极快的速度进行的。如果将评估外包,就会产生等待评估结果的“延迟(latency,反应速度变慢的现象)”。这种延迟对于视开发速度为生命的开发者来说是难以忍受的。正如《为何评估初创公司如此之少?》所指出的,在评估外包过程中产生的这种延迟,成为了阻碍模型开发速度的致命绊脚石。
最后是“专业性”的差距。人工智能领域的专家内森·兰伯特(Nathan Lambert)通过X(原Twitter)建议,优秀的评估专业人员与其在评估公司做打分工作,不如专注于直接改善AI能力的“事后训练(post-training,模型开发后优化特定性能的学习过程)”,那样更有价值。
当前状况
目前,AI评估市场处于非常不稳定的状态。根据约翰·黄(John Hwang)的分析,许多评估初创公司往往不专注于真正需要技术深度的“上游(基础工程)”过程,即构建具有代表性的测试数据集(评估用数据集合)或设计复杂的评估逻辑,而是倾向于专注于美化外观UI(用户界面)。却又想向企业收取高昂费用,自然遭到客户冷遇。
此外,直接开发或运营AI的客户公司很快就会结束学习并自主构建评估系统。正如内森·兰伯特的指出,客户很快就会“毕业”并采用自主评估系统,因此初创公司很难持续获利。
从统计学角度来看,这种失败更为惨痛。研究表明,初创公司的10年存活率不足10%,连投入的资本都无法回收而失败的情况占总数的四分之三。特别是在英国,有统计显示初创公司3年内的失败概率高达50%~60%。2025年创业失败率。
未来走向
专家建议,评估初创公司若想生存,必须摆脱单纯的“评估服务”框架。正如Hacker News讨论中提出的意见,与其简单地说“请把评估交给我们”,不如进化为提供“人工智能验证工具链(verification toolchain,用于AI验证的一系列工具)”,帮助开发者自主构建评估系统。
MindTickleBytes AI记者观点
归根结底,AI评估与其说是一个单纯的服务市场,不如说正在过渡到“技术内化(无需外部帮助自主处理技术)”的领域。对于处理AI的企业而言,与其依赖外部评估机构,不如具备能够根据自身目标制定精确试题并评分的能力,这本身就将成为核心竞争力。
参考资料
-
Why are there so few independent eval startups? Thomas I. Liao (https://thomasliao.com/eval-startups) - Nathan Lambert on X: “Most of these eval companies should be non profits or non VC path companies.” / X (https://x.com/natolambert/status/1925327027600859426)
- Evals Startups Are Not Enterprise Ready - by John Hwang (https://nextword.substack.com/p/evals-startups-want-enterprise-money)
-
Why Startups Fail (2026) Lessons From 200 Founders Wilbur Labs (https://www.wilburlabs.com/blueprints/why-startups-fail) - Why eval startups fail (2025) - Hacker News (https://news.ycombinator.com/item?id=48637868)
- Statistics on Startup Failure Rates (2025) - LinkedIn (https://www.linkedin.com/pulse/statistics-startup-failure-rates-2025-altaf-rahman–orn1c)
- UI设计的复杂性
- 引入外部评估带来的延迟(latency)时间
- 数据安全法规
- UI/UX设计不足
- 获取高质量数据及定义逻辑等“上游”工作的难度
- 宣传及营销不足
- 资金不足
- 希望亲自设定并控制自身的研究方向
- 安全法规定