AI의 유창한 거짓말, 이제 끝날까? 구글이 공개한 깐깐한 채점관 'FACTS Grounding'

AI가 수많은 서류 뭉치 사이에서 돋보기를 들고 사실을 확인하는 현대적인 일러스트레이션
AI Summary

구글이 AI가 제시된 문서에 근거해 얼마나 정확하게 답변하는지 측정하는 'FACTS Grounding' 벤치마크를 공개하며, AI 신뢰성의 새로운 기준을 제시했습니다.

상상해보세요. 여러분이 회사에서 중요한 프로젝트를 앞두고 100페이지가 넘는 두꺼운 보고서를 받았습니다. 눈이 침침해질 정도로 방대한 양이죠. 시간이 부족한 당신은 AI에게 구원 요청을 보냅니다. “이 보고서 내용을 바탕으로 핵심 전략 5가지만 정리해줘.”

잠시 후, AI가 아주 깔끔하고 논리적인 답변을 내놓습니다. 말투는 자신감이 넘치고 문장은 유려합니다. 그런데 문득 이런 의구심이 머릿속을 스칩니다. “이거, 진짜 보고서에 있는 내용 맞나? 혹시 AI가 그럴듯하게 지어낸 건 아닐까?”

이런 불안함은 단순히 기우가 아닙니다. 최신 AI 모델들은 정보를 검색하고 활용하는 방식을 완전히 바꾸어 놓았지만, 여전히 사실 관계를 틀리게 말하는 ‘환각 현상(Hallucination)’에서 자유롭지 못하기 때문입니다. 쉽게 말해, AI가 모르는 것을 모른다고 하지 않고 마치 사실인 것처럼 그럴듯하게 거짓말을 하는 현상이죠 Source 3.

이 문제를 해결하기 위해 구글의 FACTS 팀과 데이터 과학 플랫폼 캐글(Kaggle)이 팔을 걷어붙였습니다. 이들이 내놓은 해결책은 바로 ‘FACTS Grounding’이라는 새로운 AI 시험지, 즉 벤치마크(Benchmark, 성능을 측정하기 위한 표준 시험지)입니다 Source 14.

팩트 체크가 왜 그렇게 중요한가요?

우리가 AI를 비즈니스 파트너로 믿고 쓰려면 AI가 내뱉는 말이 단순히 ‘유창한가’를 넘어 ‘진실인가’를 검증할 수 있어야 합니다. 하지만 지금까지의 AI 테스트들은 짧은 문장을 요약하거나 상식 퀴즈를 맞히는 수준에 그쳤습니다. AI가 정말 방대한 정보의 숲속에서 정확한 열매를 따오는지 확인하기에는 역부족이었죠 Source 15.

비유하자면, 지금까지는 AI가 “말을 얼마나 예쁘게 하느냐”를 봤다면, 이제는 “법정의 증인처럼 진실만을 말하느냐”를 따지기 시작한 것입니다. 법률 문서를 분석하거나, 생명과 직결된 의학 정보를 찾을 때 AI가 한 글자라도 틀린 정보를 사실인 양 말한다면 끔찍한 사고로 이어질 수 있습니다. 구글과 캐글이 이번에 내놓은 FACTS 벤치마크 슈트(Suite)는 바로 이 ‘사실 정확도’의 구멍을 메우기 위해 설계된 엄격한 평가 시스템입니다 Source 14.

쉽게 이해하기: FACTS Grounding이란?

쉽게 말해, FACTS Grounding은 AI를 위한 ‘지옥의 오픈북 테스트’입니다. 단순히 외운 걸 쓰는 게 아니라, 주어진 책 안에서만 답을 찾아야 하는 고난도 시험이죠.

1. 엄청나게 두꺼운 참고서 (Long Context)

보통의 AI 테스트가 쪽지 시험 수준이라면, FACTS Grounding은 전공 서적 한 권을 통째로 던져주는 것과 같습니다. 이 벤치마크는 AI에게 최대 32,000 토큰(Tokens, AI가 글자를 처리하는 최소 단위)에 달하는 문서를 제공합니다 Source 10.

이게 어느 정도냐고요? 일반적인 A4 용지로 따지면 약 60~80페이지에 달하는 방대한 양입니다. AI는 이 긴 문서를 처음부터 끝까지 정독하고, 사용자의 까다로운 질문에 대해 아주 상세한 답변을 내놓아야 합니다 Source 12.

2. ‘그라운딩(Grounding)’이라는 절대 규칙

여기서 핵심은 그라운딩(Grounding, 제시된 근거 자료에 기반해 답변하는 능력)입니다. 이는 AI에게 “너의 상식은 잠시 접어두고, 오직 이 서류에 적힌 내용으로만 승부해!”라고 명령하는 것과 같습니다. 만약 문서에는 ‘사과가 빨갛다’고 적혀 있는데 AI가 자신의 외부 지식을 활용해 ‘사과는 초록색일 수도 있다’고 답한다면? 아무리 맞는 말이라도 이 시험에서는 ‘오답’입니다. 근거 없는 답변은 가차 없이 탈락이죠.

3. 세 명의 까다로운 AI 심판

이 시험의 가장 흥미로운 대목은 사람이 일일이 채점하는 대신, 업계 최고의 브레인이라 불리는 세 명의 ‘AI 심판’이 채점을 맡는다는 점입니다 Source 1.

  • 구글의 자존심 Gemini 1.5 Pro
  • 오픈AI의 에이스 GPT-4o
  • 앤스로픽의 모범생 Claude 3.5 Sonnet

이 세 모델이 한 팀이 되어 다른 AI가 내놓은 답변을 현미경 보듯 뒤집니다. 문장 하나하나가 원본 문서의 몇 페이지, 몇 째 줄에 근거하고 있는지, 혹시 교묘하게 지어낸 말은 없는지 샅샅이 검사합니다 Source 1. 마치 세 명의 깐깐한 교수님이 대학원생의 논문을 공동 검토하는 모습과 비슷하죠.

현재 상황: ‘70%의 벽’에 부딪힌 AI의 지능

이 새로운 시험지를 통해 현재 최고의 AI 모델들을 테스트해 본 결과, 꽤 충격적인 성적표가 공개되었습니다. 바로 ‘70%의 사실 정확도 천장(Ceiling)’ 현상입니다 Source 14.

한번 생각해보세요. 10가지 사실 중 3가지를 틀리게 말하는 비서에게 중요한 업무를 맡길 수 있을까요? 일상적인 대화에서는 AI가 완벽해 보일지 모르지만, 정보가 빽빽한 긴 문서를 바탕으로 정밀한 답변을 내놓아야 하는 ‘실전’ 상황에서는 아무리 뛰어난 AI라도 70% 정도의 정확도에서 쩔쩔매고 있다는 것입니다.

이는 AI가 여전히 복잡한 맥락 속에서 ‘팩트’의 끈을 놓지 않는 것을 어려워한다는 증거입니다. 전체 1,719개의 예시 문제로 구성된 이 벤치마크는 Source 12, 현재 ‘FACTS Grounding 리더보드’를 통해 실시간으로 성적을 공개하며 기술의 한계를 투명하게 드러내고 있습니다 Source 10.

앞으로의 미래: 더 정직한 AI를 향하여

구글 FACTS 팀은 이번 벤치마크 출시가 “AI의 사실 정확도 격차를 줄이기 위한 중요한 이정표”가 될 것이라고 기대를 밝혔습니다 Source 14. 이제 우리는 다음과 같은 변화를 기대해 볼 수 있습니다.

  1. 진짜 믿을 수 있는 업무 파트너: 기업들이 이 깐깐한 시험을 통과한 AI를 도입하게 되면, 법률이나 금융처럼 한 치의 오차도 허용되지 않는 분야에서 AI의 활약이 본격화될 것입니다.
  2. ‘진실성’ 중심의 기술 전쟁: 이제 AI 기업들은 단순히 “우리가 더 똑똑하다”고 우기는 대신, “우리 모델은 FACTS Grounding에서 90%를 기록했다”는 구체적인 성적표로 신뢰를 증명해야 합니다.
  3. 환각 현상의 종말?: 엄격한 채점 기준이 생겼으니, 개발자들은 환각 현상을 억제하는 기술을 더 치열하게 연구하게 될 것입니다. 거짓말을 하면 바로 들통나는 시스템이 갖춰진 셈이니까요 Source 15.

AI의 시선: MindTickleBytes AI 기자 시선

AI가 똑똑해지는 것보다 더 어려운 것은 ‘정직해지는 것’입니다. FACTS Grounding은 AI에게 “모르는 걸 아는 척하지 말고, 오직 근거에 기반해서만 말하라”는 강력한 훈육을 시작했습니다. 현재의 70%라는 성적표는 부끄러운 결과가 아니라, 우리가 앞으로 정복해야 할 ‘신뢰의 영토’가 그만큼 넓다는 것을 보여주는 설레는 도전장입니다. 머지않아 99%의 진실만을 말하는 AI 동료를 만날 날을 기대해 봅니다.

참고자료

  1. FACTS Grounding: A new benchmark for evaluating the factuality of large language models
  2. The FACTS Grounding Leaderboard: Benchmarking LLMs’ Ability to Generate Factually Accurate Context-Grounded Text
  3. FACTS Grounding: A new benchmark for evaluating the factuality (LinkedIn)
  4. The 70% factuality ceiling: why Google’s new ‘FACTS’ benchmark is a wake-up call (VentureBeat)
  5. FACTS Grounding Leaderboard - llm-stats.com
  6. FACTS Grounding Benchmark Overview - api.emergentmind.com
  7. FACTS Benchmark Suite Introduced to Evaluate Factual Accuracy of LLMs - InfoQ

FACT-CHECK SUMMARY

  • Claims checked: 13
  • Claims verified: 13
  • Verdict: PASS
이 글을 얼마나 이해했나요?
Q1. FACTS Grounding 벤치마크에서 AI의 답변을 채점하는 '심판'은 누구인가요?
  • 사람 전문가 그룹
  • Gemini, GPT, Claude 등 최첨단 AI 모델들
  • 구글의 검색 알고리즘
이 벤치마크는 Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet이라는 세 가지 강력한 AI 모델을 '심판'으로 활용해 답변의 사실 여부를 자동으로 판정합니다.
Q2. FACTS Grounding 테스트에서 AI가 한 번에 읽어야 하는 문서의 최대 길이는 어느 정도인가요?
  • 약 500단어
  • 최대 32,000 토큰(약 60~80페이지 분량)
  • 무제한
이 시험지는 AI에게 최대 32,000 토큰에 달하는 방대한 문서를 주고, 그 안에서만 답을 찾으라고 요구합니다.
Q3. 현재 최첨단 AI들이 이 벤치마크에서 보여주는 사실 정확도의 '천장(한계)'은 대략 몇 % 수준인가요?
  • 99%
  • 90%
  • 70%
최근 보고서에 따르면 현재 AI 모델들은 복잡한 정보 처리 상황에서 약 70%의 사실 정확도 벽에 부딪혀 있는 것으로 나타났습니다.
AI의 유창한 거짓말, 이제 끝날까? 구글이 공개...
0:00