AI 評估新創公司失敗的原因在於大型研究室不願將核心評估權交予外部,加上服務延遲問題,以及客戶具備建立自有評估系統的能力。
想像一下,您斥資數億元聘請頂尖廚師,準備開設一家完美的餐廳。但如果您每次都要聯絡外部專業機構來評估廚師的功力,問他們:「我們的廚師現在表現如何?」會發生什麼事?在等待答覆的過程中,客人可能早就走了,而改進食譜的最佳時機也錯過了。
如今,人工智慧(AI)業界也面臨類似的困擾。隨著開發 AI 模型的企業如雨後春筍般湧現,衡量這些模型聰明程度的「AI 評估(Eval)新創公司」也隨之誕生。然而令人驚訝的是,這些公司中有許多都未能成功站穩腳跟而消失了。究竟是為什麼?是單純運氣不好,還是 AI 評估這項業務本身存在結構性問題?
為何這很重要?
隨著 AI 技術進步,AI 生成答案的「準確性」已與企業的生存息息相關。因為一旦 AI 提供虛假資訊或帶有偏見的回答,將對企業形象造成重創。從這個脈絡來看,AI 評估服務對企業而言宛如久旱甘霖。然而評估新創公司持續失敗,意味著我們所期待的「AI 品質管理」並非單靠引入一個服務就能解決。這也同時向所有打算活用 AI 服務的企業拋出了一個時代性的課題:必須提升自身技術能力。
簡單易懂的解釋
簡單來說,AI 評估新創公司面臨的困難,可以比喻為「羅盤主權」問題。
對於研發 AI 模型的實驗室(如巨型科技企業)而言,「評估」不僅僅是一個打分數的過程。這項評估扮演著重要的「羅盤」角色,決定了 AI 該向哪個方向邁進。根據 《為什麼評估新創公司這麼少?》(Why are there so few independent eval startups?) 一文,巨型研究室並不希望將他們設定的研究核心方向全權交由外部企業掌控。
此外,「速度」問題也很大。AI 模型開發進度極快。一旦將評估外包,就必須等待評估結果出來,進而產生「延遲(latency,反應速度變慢的現象)」。對於將開發速度視為生命的開發者而言,這種延遲是難以忍受的因素。正如該文所指出的,在外包評估過程中產生的這種延遲現象,是拖累模型開發速度的致命障礙。
最後是「專業性」的差距。人工智慧領域專家內森·蘭伯特(Nathan Lambert)透過 X(原 Twitter) 指出,優秀的評估專業人才,將心力投注於直接提升 AI 能力的「後續訓練(post-training,指模型開發後針對特定性能進行最佳化的學習過程)」,比在評估公司擔任評分員更有價值。
現況
目前的 AI 評估市場處於非常不穩定的狀態。根據約翰·黃(John Hwang)的 分析,許多評估新創公司傾向於將心力集中在美化表層 UI(使用者介面),而非解決真正需要技術深度的「上游(基礎工程)」過程,例如建構具有代表性的測試數據集(評估用數據集合)或設計複雜的評估邏輯。儘管如此,他們卻試圖向企業收取高昂費用,這也難怪會遭到客戶冷落。
更重要的是,自行開發或營運 AI 的客戶公司,很快就會完成訓練並建立屬於自己的評估系統。正如 內森·蘭伯特的觀點,由於客戶會迅速「畢業」轉而使用自有評估系統,導致新創公司難以持續獲利,商業結構極為艱難。
從統計數據來看,這些失敗更加令人心痛。研究顯示,新創公司的 10 年生存率不到 10%,而 連投入資本都無法回收就失敗的案例 佔了整體的四分之三。特別是在英國,更有統計指出新創公司在 3 年內失敗的機率高達 50~60%。2025 年新創失敗率統計 (startup failure rates 2025)。
未來走向
專家建議,評估新創公司若要生存,必須跳脫單純的「評估服務」框架。根據 駭客新聞 (Hacker News) 討論 中提出的意見,與其說「請交給我們評估」,不如進化為協助開發者自行建構評估系統的「人工智慧驗證工具鏈 (verification toolchain,AI 驗證所需的一系列工具)」。
MindTickleBytes 的 AI 記者觀點
歸根結底,AI 評估已不再只是單純的服務市場,而是走向「技術內化(無須外部協助自行處理技術)」的領域。對於活用 AI 的企業而言,與其依賴外部評估機構,不如培養出能根據自身目標製作精密考題並進行批改的能力,這本身就將成為核心競爭力。
## 參考資料
-
Why are there so few independent eval startups? Thomas I. Liao (https://thomasliao.com/eval-startups) - Nathan Lambert on X: “Most of these eval companies should be non profits or non VC path companies.” / X (https://x.com/natolambert/status/1925327027600859426)
- Evals Startups Are Not Enterprise Ready - by John Hwang (https://nextword.substack.com/p/evals-startups-want-enterprise-money)
-
Why Startups Fail (2026) Lessons From 200 Founders Wilbur Labs (https://www.wilburlabs.com/blueprints/why-startups-fail) - Why eval startups fail (2025) - Hacker News (https://news.ycombinator.com/item?id=48637868)
- Statistics on Startup Failure Rates (2025) - LinkedIn (https://www.linkedin.com/pulse/statistics-startup-failure-rates-2025-altaf-rahman–orn1c)
- UI 設計的複雜性
- 引入外部評估導致的延遲時間(latency)
- 數據安全法規
- UI/UX 設計不足
- 取得高品質數據及定義評估邏輯等『上游』工作的難度
- 宣傳與行銷不足
- 缺乏資金
- 希望親自設定並控制自身的研究方向
- 受安全法規限制