구글 딥마인드가 AI의 답변이 제공된 문서에 얼마나 충실한지 측정하는 'FACTS Grounding' 벤치마크를 공개하며, AI의 신뢰성을 높이기 위한 새로운 기준을 제시했습니다.
상상해보세요. 당신이 아주 중요한 업무를 위해 비서에게 50페이지짜리 긴 보고서를 건네주며 요약을 부탁했습니다. 잠시 후 비서는 아주 깔끔하고 논리적인 요약본을 가져왔습니다. 그런데 자세히 읽어보니, 보고서 어디에도 없는 매출 수치가 적혀 있습니다. 당황해서 비서에게 물으니 “그 수치가 들어가야 보고서가 더 그럴듯해 보여서 적어 넣었다”라고 천연덕스럽게 대답합니다.
이런 황당한 현상을 AI 업계에서는 할루시네이션(Hallucination, 인공지능이 마치 환각을 보듯 그럴듯한 거짓말을 지어내는 현상)이라고 부릅니다. 출처 제목 인공지능이 아무리 똑똑해져도 이 ‘아무 말 대잔치’ 문제는 여전히 해결하기 어려운 숙제로 남아 있습니다. 출처 제목
하지만 최근 구글 딥마인드(Google DeepMind)가 이 문제를 정면으로 돌파하기 위해 새로운 무기를 꺼내 들었습니다. 바로 AI가 얼마나 정직하게 주어진 문서에 근거해서 답변하는지를 정밀하게 측정하는 시험대, ‘FACTS Grounding’ 벤치마크입니다. 출처 제목
왜 이게 중요한가요?
우리가 AI를 믿고 쓰려면 AI가 하는 말이 진짜인지 가짜인지 확실히 알 수 있어야 합니다. 특히 법률, 의료, 비즈니스처럼 작은 실수 하나가 큰 사고로 이어지는 분야에서는 AI의 지능보다 ‘정직함’이 훨씬 더 중요합니다.
지금까지의 AI 평가는 ‘말을 얼마나 유창하게 잘하는지’에 집중해 왔습니다. 하지만 이제는 ‘말의 근거가 얼마나 확실한지’를 따져야 할 때입니다. 여기서 핵심 키워드는 바로 그라운딩(Grounding, 답변의 근거를 주어진 정보에 단단히 고정하는 기술)입니다. 쉽게 말해서 AI가 자신의 기억이나 상상력이 아니라, 사용자가 준 자료 안에서만 답을 찾도록 발을 묶어두는 아주 중요한 기술입니다. 출처 제목 출처 제목
구글 딥마인드가 공개한 FACTS Grounding은 AI가 긴 문서를 읽고 답변할 때 얼마나 딴소리를 하지 않고 문서 내용에만 충실한지(High-fidelity attribution)를 꼼꼼하게 따져 묻습니다. 출처 제목
더 쉽게 이해하기: AI를 위한 ‘초고난도 오픈북 테스트’
FACTS Grounding을 비유하자면, AI에게 ‘초고난도 오픈북 테스트’를 치르게 하는 것과 같습니다. 일반적인 AI 시험이 AI가 평소에 공부한 지식을 뽐내는 ‘수능 시험’이라면, FACTS는 옆에 두꺼운 백과사전을 한 권 주고 “다른 데 보지 말고 오직 이 책 안에서만 답을 찾아라”라고 명령하는 시험입니다.
1. 50페이지를 한 번에 읽는 집중력
이 시험에서 AI는 최대 32,000개의 토큰(Token, AI가 문장을 이해하는 최소 단위)에 달하는 긴 문서를 받습니다. 출처 제목 출처 제목 이는 종이 책으로 치면 약 40~50페이지 정도 되는 방대한 분량입니다. 비유하자면 소설책 한 권의 절반 정도를 한눈에 훑고, 그 안의 세세한 정보까지 정확하게 답변(Long-form response)해야 하는 셈입니다. 출처 제목
2. 세 명의 판사가 지켜보는 엄격함
시험을 쳤다면 채점도 공정해야겠죠? FACTS 시스템은 ‘3인 판사(3-judge)’라는 독특한 평가 방식을 사용합니다. 출처 제목 AI가 내놓은 답변의 각 문장이 정말로 제공된 문서에 있는지, 아니면 AI가 멋대로 지어낸 것인지를 세 명의 ‘AI 판사’가 현미경으로 들여다보듯 정밀하게 검증하여 정확도를 산출합니다.
3. 실시간 성적표, 리더보드
구글 딥마인드는 단순히 시험지만 만든 게 아니라, 전 세계 모든 AI 모델이 와서 시험을 치르고 점수를 공개하는 온라인 리더보드(Leaderboard, 순위표)도 함께 운영합니다. 출처 제목 출처 제목 누가 더 정직하고 꼼꼼한 AI인지 전 세계가 실시간으로 지켜보게 되는 것이죠.
현재 상황: 생각보다 어려운 ‘정직함’의 길
그렇다면 현재 가장 똑똑하다는 AI들은 이 시험에서 어떤 성적을 거두고 있을까요? 결과는 생각보다 충격적입니다.
최근의 평가 결과에 따르면, 구글의 가장 강력한 모델 중 하나인 제미나이 3 프로(Gemini 3 Pro)가 전체 FACTS 점수 68.8%를 기록하며 선두권을 달리고 있습니다. 출처 제목
일반적인 상식으로는 90점 이상을 맞아야 ‘우등생’이라고 생각하겠지만, AI에게 32,000개의 토큰을 읽고 단 하나의 거짓말도 섞지 않은 채 긴 글을 쓰는 것은 매우 어려운 일입니다. 실제로 많은 최상위권 AI 모델들도 이 테스트에서 약 74% 수준의 정확도에 머무르고 있는 것으로 나타났습니다. 출처 제목 이는 우리가 매일 사용하는 AI가 여전히 4번에 1번꼴로는 미묘한 오류나 거짓말을 섞을 수 있다는 것을 시사하며, 아직 갈 길이 멀다는 것을 보여줍니다. 출처 제목
앞으로 어떻게 될까?
구글 딥마인드는 여기서 멈추지 않았습니다. 이들은 팩트 체크 기능을 더욱 강화하여 최근 ‘FACTS Benchmark Suite’라는 이름으로 시스템을 확장했습니다. 출처 제목 이 과정에서 세계적인 데이터 과학 플랫폼인 캐글(Kaggle)과 협력하여 더욱 투명하고 표준화된 테스트 환경을 구축했습니다. 출처 제목
새롭게 업데이트된 버전(v2)은 기존 1,719개였던 시험 예제를 3,513개로 두 배 가까이 늘려, AI의 실력을 더 꼼꼼하게 검증할 수 있게 되었습니다. 출처 제목 출처 제목 이제 AI 모델들은 단순한 글뿐만 아니라 이미지 입력 등 더 넓은 범위에서 사실 관계를 확인하는 능력을 평가받게 됩니다. 출처 제목 출처 제목
결국 FACTS와 같은 엄격한 벤치마크가 늘어날수록, 우리가 사용하는 AI는 점점 더 믿음직한 파트너가 될 것입니다. 미래의 AI는 단순히 말을 잘하는 달변가가 아니라, 근거를 명확히 제시하는 신뢰할 수 있는 전문가의 모습에 가까워질 것입니다.
AI의 시선: MindTickleBytes의 AI 기자 시선
“AI가 70점도 안 되는 점수를 받았다는 소식에 실망하셨나요? 하지만 반대로 생각해보면, 이제 우리는 AI가 어디서 어떻게 실수하는지를 정확히 측정할 수 있는 ‘자(Ruler)’를 가지게 된 셈입니다. 부족함을 아는 것이 완벽해지기 위한 첫걸음이죠. 머지않아 AI가 ‘제 생각에는…‘이 아니라 ‘이 문서의 3페이지에 따르면…‘이라고 정확히 출처를 짚어가며 말하는 날이 올 것입니다.”
참고자료
- FACTS Grounding: A new benchmark for evaluating the factuality of large …
- The FACTS Grounding Leaderboard: Benchmarking LLMs’ Ability to Ground …
- FACTS Grounding Leaderboard - llm-stats.com
- FACTS Grounding Benchmark Overview - api.emergentmind.com
- PDFThe FACTS Grounding Leaderboard: BenchmarkingLLMs’AbilitytoGround …
- Google’s New FACTS Benchmark Measures Truthfulness of AI Models - WinBuzzer
- The FACTS Grounding Leaderboard: Benchmarking LLMs’ Ability to Ground …
- DeepMind FACTS Framework 2026: LLM Factual Accuracy Guide
- FACTS Benchmark Suite: a new way to systematically evaluate LLMs factuality — Google DeepMind
- FACTS Benchmark Suite Introduced to Evaluate Factual Accuracy of Large Language Models - InfoQ
- FACTS Benchmark Suite Elevates LLM Factuality Scrutiny
- The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality
- The FACTS Leaderboard: A Comprehensive Benchmark for …
FACT-CHECK SUMMARY
- Claims checked: 17
- Claims verified: 17
- Verdict: PASS
- 시를 얼마나 아름답게 쓰는가
- 제공된 문서에 근거하여 얼마나 정확하게 답변하는가
- 코딩 속도가 얼마나 빠른가
- 작가가 직접 읽어보기
- 3인 판사(3-judge) 평가 방식
- 단어 개수 세기
- 99.9%
- 68.8%
- 20.5%