AI 평가 스타트업들은 왜 자꾸 실패할까?

AI Summary

AI 평가 스타트업이 실패하는 이유는 대형 연구소들이 핵심 평가권을 외부에 넘기지 않으려 하고, 서비스의 느린 속도와 고객들의 자체 평가 시스템 구축 능력 때문입니다.

상상해보세요. 여러분이 수억 원을 들여 최고의 요리사를 고용해 완벽한 레스토랑을 열려고 합니다. 그런데 요리 실력을 평가해줄 외부 전문 기관에 매번 연락해서 “우리 요리사 지금 잘하고 있나요?”라고 묻는다면 어떨까요? 답변을 기다리는 동안 손님은 이미 떠나고, 요리법을 개선할 타이밍도 놓칠 겁니다.

요즘 인공지능(AI) 업계에서도 이와 비슷한 고민이 이어지고 있습니다. AI 모델을 개발하는 기업들이 속속 등장하면서, 이 모델이 얼마나 똑똑한지 평가해주는 ‘AI 평가(Eval) 스타트업’들도 덩달아 생겨났습니다. 하지만 놀랍게도 이들 중 상당수는 성공적으로 안착하지 못하고 사라지곤 합니다. 도대체 왜일까요? 단순히 운이 없었던 걸까요, 아니면 AI 평가라는 비즈니스 자체에 구조적인 문제가 있는 걸까요?

이게 왜 중요한가요?

AI 기술이 발전함에 따라 AI가 내놓는 답변의 ‘정확성’은 이제 기업의 생존과 직결됩니다. AI가 거짓 정보를 말하거나 편향된 답변을 내놓으면 기업 이미지에 큰 타격이 오기 때문이죠. 이런 맥락에서 AI 평가 서비스는 기업들에게 가뭄의 단비처럼 보였습니다. 하지만 평가 스타트업들이 계속 실패한다는 것은, 우리가 기대했던 ‘AI 품질 관리’가 단순히 서비스 하나만 도입한다고 해결되는 문제가 아니라는 뜻이기도 합니다. 이는 곧 AI 서비스를 활용하려는 일반 기업들도 스스로 기술적 역량을 키워야 한다는 시대적 과제를 던져줍니다.

쉽게 이해하기

쉽게 말해서, AI 평가 스타트업이 겪는 어려움은 ‘나침반 주권’ 문제라고 비유할 수 있습니다.

AI 모델을 만드는 연구소(빅테크 기업 등)에게 ‘평가’는 단순히 점수를 매기는 과정이 아닙니다. 이 평가는 우리 AI가 어떤 방향으로 나아가야 할지를 결정하는 중요한 ‘나침반’ 역할을 하죠. 왜 평가 스타트업은 이렇게 적은가?에 따르면, 거대 연구소들은 자신들이 설정한 연구의 핵심 방향을 외부 기업에 통째로 맡기고 싶어 하지 않습니다.

또한, ‘속도’ 문제도 큽니다. AI 모델 개발은 엄청나게 빠른 속도로 진행됩니다. 그런데 평가를 외부에 맡기면, 평가 결과가 나올 때까지 기다려야 하는 ‘지연(latency, 반응 속도가 늦어지는 현상)’ 시간이 발생합니다. 이 지연 시간은 개발 속도를 생명으로 여기는 개발자들에게는 견디기 힘든 요소입니다. 왜 평가 스타트업은 이렇게 적은가?에서 지적하듯, 평가를 외주화하는 과정에서 발생하는 이 지연 현상은 모델 개발의 속도를 떨어뜨리는 치명적인 걸림돌이 됩니다.

마지막으로, ‘전문성’의 격차입니다. 인공지능 분야의 전문가인 네이선 램버트(Nathan Lambert)는 X(구 트위터)를 통해 뛰어난 평가 전문 인력이라면 평가 회사에서 점수를 매기는 일보다, AI의 능력을 직접 개선하는 ‘사후 학습(post-training, 모델 개발 후 특정 성능을 최적화하는 학습 과정)’ 업무에 집중하는 것이 더 가치 있다고 조언합니다.

현재 상황

현재 AI 평가 시장은 매우 불안정한 상태입니다. 존 황(John Hwang)이 지적한 분석에 따르면, 많은 평가 스타트업들은 실제 기술적 깊이가 필요한 ‘업스트림(기초 공사)’ 과정, 즉 대표성 있는 테스트 데이터셋(평가를 위한 데이터 모음)을 구성하거나 복잡한 평가 논리를 설계하는 일 대신, 겉으로 보이는 UI(사용자 인터페이스)를 예쁘게 만드는 데 집중하는 경향이 있습니다. 그러면서도 기업들로부터 높은 가격을 받으려고 하니 고객들의 외면을 받는 것이죠.

더욱이, AI를 직접 개발하거나 운영하는 고객사들은 금방 학습을 끝내고 스스로 평가 시스템을 구축해버립니다. 네이선 램버트의 지적처럼, 고객들은 빠르게 자체 평가 시스템으로 졸업해버리기 때문에 스타트업이 꾸준히 수익을 내기가 매우 어려운 구조입니다.

통계적으로 보면 이런 실패는 더욱 뼈아픕니다. 연구에 따르면 스타트업의 10년 생존율은 10% 미만이며, 투입한 자본조차 회수하지 못하고 실패하는 경우가 전체의 3/4에 달합니다. 특히 영국 스타트업의 경우 3년 내 실패 확률이 50~60%에 이른다는 통계도 있습니다. startup failure rates 2025.

앞으로 어떻게 될까?

전문가들은 평가 스타트업이 살아남기 위해서는 단순한 ‘평가 서비스’라는 틀에서 벗어나야 한다고 조언합니다. 해커 뉴스(Hacker News)의 토론에서 제기된 의견처럼, 단순히 “우리에게 평가를 맡기세요”라고 말하는 대신, 개발자들이 스스로 평가 시스템을 구축할 수 있도록 돕는 ‘인공지능 검증 도구 체인(verification toolchain, AI 검증을 위한 일련의 도구들)’을 제공하는 방향으로 진화해야 할 것입니다.

MindTickleBytes의 AI 기자 시선

결국 AI 평가는 단순한 서비스 시장이라기보다는 ‘기술 내재화(기술을 외부 도움 없이 스스로 처리하는 것)’의 영역으로 넘어가고 있습니다. AI를 다루는 기업이라면 외부 평가사에 의존할 것이 아니라, 스스로의 목표에 맞는 정교한 시험 문제를 만들고 채점하는 능력 자체가 핵심 경쟁력이 될 것입니다.

참고자료

Why are there so few independent eval startups? Thomas I. Liao (https://thomasliao.com/eval-startups)
Nathan Lambert on X: “Most of these eval companies should be non profits or non VC path companies.” / X (https://x.com/natolambert/status/1925327027600859426)
Evals Startups Are Not Enterprise Ready - by John Hwang (https://nextword.substack.com/p/evals-startups-want-enterprise-money)
Why Startups Fail (2026) Lessons From 200 Founders Wilbur Labs (https://www.wilburlabs.com/blueprints/why-startups-fail)
Why eval startups fail (2025) - Hacker News (https://news.ycombinator.com/item?id=48637868)
Statistics on Startup Failure Rates (2025) - LinkedIn (https://www.linkedin.com/pulse/statistics-startup-failure-rates-2025-altaf-rahman–orn1c)

Share this article:

이 글을 얼마나 이해했나요?

Q1. AI 평가 스타트업이 제공하는 서비스가 모델 개발 속도를 늦추는 주된 이유는 무엇인가요?

UI 디자인의 복잡성
외부 평가 도입으로 인한 지연(latency) 시간
데이터 보안 규제

외부 평가를 도입하면 개발 루프에 불필요한 대기 시간이 추가되어 빠른 속도가 생명인 모델 개발 현장에서 치명적인 지연을 유발합니다.

Q2. 본문에서 언급된 AI 평가 스타트업의 근본적인 어려움은 무엇인가요?

UI/UX 디자인 부족
양질의 데이터 확보 및 논리 정의 같은 '업스트림' 작업의 난이도
홍보 및 마케팅 부족

평가 스타트업은 단순히 디자인(UI)을 예쁘게 만드는 것보다, 정확한 시험 데이터 확보와 의미 있는 평가 논리를 설계하는 어려운 작업을 해결하지 못하는 경우가 많습니다.

Q3. 대형 AI 연구소가 평가 업무를 외부에 잘 맡기지 않는 이유는 무엇인가요?

돈이 부족해서
자신들의 연구 방향을 직접 설정하고 제어하길 원해서
보안법 때문

연구 평가는 기술의 방향성을 결정하는 핵심 업무이기에, 거대 연구소들은 이 권한을 외부에 외주화하지 않으려 합니다.