AI評価スタートアップが失敗する理由は、大手研究所が核心的な評価権限を外部に渡そうとしないこと、サービスの遅延、そして顧客企業自身による評価システム構築能力の向上にあります。
想像してみてください。あなたが数億円を投じて最高の料理人を雇い、完璧なレストランを開こうとしています。しかし、料理の腕前を評価してくれる外部の専門機関に毎回連絡して「うちの料理人は今、うまくやっていますか?」と聞くとしたらどうでしょう? 回答を待っている間に客は去り、レシピを改善するタイミングも逃してしまうはずです。
昨今の人工知能(AI)業界でも、これと似た悩みが続いています。AIモデルを開発する企業が次々と登場する中、そのモデルがどれほど賢いかを評価する「AI評価(Eval)スタートアップ」も同時に生まれてきました。しかし驚くべきことに、彼らの多くは成功して定着することなく消えていきます。一体なぜでしょうか? 単に運が悪かったのか、それともAI評価というビジネス自体に構造的な問題があるのでしょうか。
なぜこれが重要なのか?
AI技術が発展するにつれ、AIが出す回答の「正確性」は、今や企業の生存と直結しています。AIが虚偽の情報を述べたり、偏った回答をしたりすれば、企業のイメージに大きな打撃を与えるからです。このような文脈で、AI評価サービスは企業にとって砂漠のオアシスのように見えました。しかし、評価スタートアップが失敗し続けるということは、我々が期待していた「AI品質管理」が単に一つのサービスを導入するだけで解決できる問題ではないことを意味します。これは、AIサービスを活用しようとする一般企業も、自ら技術的な力量を育まなければならないという時代的な課題を突きつけています。
わかりやすく解説
簡単に言えば、AI評価スタートアップが経験する困難は「羅針盤主権」の問題と例えることができます。
AIモデルを作る研究所(ビッグテック企業など)にとって「評価」とは、単に点数をつけるプロセスではありません。この評価は、我々のAIがどの方向に向かうべきかを決定する重要な「羅針盤」の役割を果たします。なぜ評価スタートアップはこれほど少ないのか?によると、巨大研究所は、自分たちが設定した研究の核心的な方向性を、外部企業に丸ごと委ねたいとは思いません。
また、「スピード」の問題も大きいです。AIモデルの開発は驚異的な速さで進行します。しかし評価を外部に任せると、評価結果が出るまで待たなければならない「レイテンシ(反応速度が遅れる現象)」が発生します。このレイテンシは、開発スピードを生命線とする開発者たちにとっては耐え難い要素です。なぜ評価スタートアップはこれほど少ないのか?で指摘されているように、評価を外部委託する過程で発生するこの遅延は、モデル開発のスピードを落とす致命的な足かせとなります。
最後に、「専門性」の格差です。人工知能分野の専門家であるネイサン・ランバート(Nathan Lambert)氏は、X(旧Twitter)を通じて、優れた評価専門の人材であれば、評価会社で点数をつける仕事よりも、AIの能力を直接改善する「事後学習(post-training、モデル開発後に特定の性能を最適化する学習プロセス)」の業務に集中するほうが価値があると助言しています。
現状
現在、AI評価市場は非常に不安定な状態です。ジョン・ファン(John Hwang)氏が指摘した分析によると、多くの評価スタートアップは、実際の技術的な深さが必要な「アップストリーム(基礎工事)」プロセス、つまり代表性のあるテストデータセット(評価のためのデータ集)を構成したり、複雑な評価論理を設計したりする仕事の代わりに、外見上のUI(ユーザーインターフェース)を綺麗に見せることに集中する傾向があります。そうしておきながら企業から高額な料金を取ろうとするため、顧客に見放されるのです。
さらに、AIを直接開発・運用する顧客企業は、すぐに学習を終えて自ら評価システムを構築してしまいます。ネイサン・ランバート氏の指摘のように、顧客はすぐに自社評価システムへと「卒業」してしまうため、スタートアップが収益を上げ続けるのは非常に困難な構造です。
統計的に見れば、こうした失敗はさらに痛切です。研究によるとスタートアップの10年生存率は10%未満であり、投じた資本すら回収できずに失敗するケースが全体の4分の3に達します。特に英国のスタートアップの場合、3年以内の失敗確率が50〜60%に達するという統計もあります。startup failure rates 2025。
今後はどうなるか?
専門家は、評価スタートアップが生き残るためには、単なる「評価サービス」という枠組みから抜け出すべきだと助言します。Hacker Newsの議論で提起された意見のように、単に「我々に評価を任せてください」と言う代わりに、開発者自身が評価システムを構築できるよう支援する「人工知能検証ツールチェーン(verification toolchain、AI検証のための一連のツール群)」を提供する方向へ進化すべきでしょう。
MindTickleBytesのAI記者からの視点
結局、AI評価は単なるサービス市場というよりも、「技術内製化(技術を外部の助けなしに自ら処理すること)」の領域へと移行しています。AIを扱う企業であれば、外部の評価機関に依存するのではなく、自らの目標に合った精巧な試験問題を作り、採点する能力そのものが核心的な競争力となるはずです。
参考資料
-
Why are there so few independent eval startups? Thomas I. Liao (https://thomasliao.com/eval-startups) - Nathan Lambert on X: “Most of these eval companies should be non profits or non VC path companies.” / X (https://x.com/natolambert/status/1925327027600859426)
- Evals Startups Are Not Enterprise Ready - by John Hwang (https://nextword.substack.com/p/evals-startups-want-enterprise-money)
-
Why Startups Fail (2026) Lessons From 200 Founders Wilbur Labs (https://www.wilburlabs.com/blueprints/why-startups-fail) - Why eval startups fail (2025) - Hacker News (https://news.ycombinator.com/item?id=48637868)
- Statistics on Startup Failure Rates (2025) - LinkedIn (https://www.linkedin.com/pulse/statistics-startup-failure-rates-2025-altaf-rahman–orn1c)
- UIデザインの複雑さ
- 外部評価導入によるレイテンシ(遅延)時間
- データセキュリティ規制
- UI/UXデザインの不足
- 良質なデータ確保や論理定義といった「アップストリーム」作業の難易度
- 広報およびマーケティング不足
- 資金が不足しているから
- 自分たちの研究方向性を直接設定し制御したいから
- セキュリティ法のため