AI의 '근거 없는 자신감'을 잡아라! 구글 딥마인드가 공개한 AI 팩트체크 시험지 'FACTS Grounding'

AI Summary

구글 딥마인드가 AI가 제공된 정보에 얼마나 충실하게 답변하는지 측정하는 새로운 벤치마크 'FACTS Grounding'을 공개하며 AI의 환각 현상 해결에 나섰습니다.

상상해보세요. 여러분이 아주 중요한 비즈니스 미팅을 앞두고 100페이지가 넘는 두꺼운 시장 조사 보고서를 AI에게 건넸습니다. “이 보고서에서 우리 회사가 내년에 주목해야 할 핵심 수치 3가지만 뽑아줘”라고 부탁했죠. 잠시 후, AI는 아주 자신만만하게 “네, 보고서에 따르면 A 시장 점유율은 15%이며, 성장률은 5%입니다”라고 답합니다. 그런데 나중에 확인해보니 보고서 어디에도 ‘15%’라는 숫자는 없었습니다. AI가 그럴듯하게 지어낸 거짓말이었던 거죠.

이처럼 AI가 사실이 아닌 정보를 마치 진짜인 것처럼 당당하게 말하는 현상을 우리는 ‘환각(Hallucination, 인공지능이 잘못된 정보를 생성하는 현상)’이라고 부릅니다FACTSGrounding:Anewbenchmarkforevaluatingthefactuality…. 거대 언어 모델(LLM)이 우리 생활 깊숙이 들어오고 있지만, 여전히 이 ‘근거 없는 자신감’은 AI를 100% 신뢰하기 어렵게 만드는 큰 걸림돌입니다.

최근 구글 딥마인드(Google DeepMind)는 이 문제를 정면으로 돌파하기 위해 새로운 해결책을 내놓았습니다. 바로 AI가 얼마나 사실에 근거해서 말하는지 측정하는 엄격한 시험지, ‘FACTS Grounding’입니다.

왜 이것이 우리에게 중요한가요?

우리는 이제 궁금한 게 생기면 백과사전 대신 AI를 찾습니다. 하지만 AI가 정보를 전달하는 방식은 우리가 기대하는 것만큼 완벽하지 않습니다FACTSGrounding:Anewbenchmarkforevaluatingthefactuality…. 특히 복잡한 문서를 분석하거나 교육 현장에서 중요한 정보를 다룰 때 AI의 오답은 치명적일 수 있습니다FACTS Grounding: A New Benchmark for Evaluating the Factuality of Large …. 쉽게 말해서, 잘못된 정보는 단순히 해프닝으로 끝나지 않고 비즈니스 의사결정의 실패나 학습의 오류로 이어질 수 있기 때문입니다.

비즈니스의 효율성을 높이고 인공지능을 더 안전하게 사용하기 위해서는, AI가 단순히 ‘말을 잘하는지’가 아니라 ‘제공된 근거(Grounding)를 얼마나 정확하게 지키는지’를 측정할 도구가 반드시 필요했습니다Evaluating Factual Accuracy in AI: New Benchmark for Language Models. 이번에 공개된 FACTS Grounding은 바로 그런 역할을 수행하는 업계의 새로운 잣대가 될 것으로 보입니다FACTS Benchmark Suite Elevates LLM Factuality Scrutiny.

AI를 위한 ‘초정밀 오픈북 테스트’

FACTS Grounding을 비유하면, AI에게 주는 ‘초정밀 오픈북 테스트’라고 할 수 있습니다. 우리가 시험을 볼 때 교과서를 옆에 두고 정답을 찾는 것과 비슷하죠.

시험 방식은 이렇습니다. 먼저 AI에게 아주 긴 문서(최대 32,000 토큰, 약 책 한 권의 상당 부분에 해당하는 분량)를 줍니다. 그리고 그 문서의 내용을 바탕으로 상세한 답변을 요구하는 질문을 던집니다The FACTS Grounding Leaderboard: Benchmarking LLMs’ Ability to Ground …. AI는 이 긴 글을 다 읽고, 자기가 아는 지식이 아니라 오직 제공된 문서 안에서만 근거를 찾아 답변을 작성해야 합니다FACTS Grounding Leaderboard - llm-stats.com.

이 과정에서 핵심은 다음 두 가지입니다.

그라운딩(Grounding, 답변의 근거를 명확히 제시함): 답변의 모든 내용이 제공된 입력 정보에 기반하고 있는가?FACTSGrounding-Acutting-edgebenchmarkforassessing the…
환각 방지: 문서에 없는 내용을 마음대로 지어내지 않았는가?FACTSGrounding:Anewbenchmarkforevaluatingthefac…

이렇게 총 1,719개의 예시 문항으로 구성된 시험을 통해 AI의 ‘진실성’을 아주 꼼꼼하게 따져보는 것입니다FACTS Grounding Leaderboard - llm-stats.com.

누가 채점을 하나요? ‘AI 교수로 구성된 심사위원단’

놀라운 점은 이 까다로운 시험의 채점을 사람이 직접 하지 않는다는 것입니다. 구글 딥마인드 팀은 세 가지 최첨단 AI 모델을 ‘심사위원’으로 임명했습니다.

구글의 Gemini 1.5 Pro
OpenAI의 GPT-4o
Anthropic의 Claude 3.5 Sonnet

이 세 명의 ‘AI 교수님’들이 한 팀이 되어, 다른 AI들이 낸 답변이 문서와 얼마나 일치하는지, 혹은 거짓말이 섞여 있지는 않은지를 자동으로 평가합니다FACTSGrounding:Anewbenchmarkforevaluatingthefactuality…. 서로 다른 회사의 최고 성능 모델들이 교차 검증을 함으로써 평가의 공정성과 정확성을 높인 것이 특징입니다. 사람이 채점했다면 수개월이 걸렸을 방대한 양을 AI가 정밀하고 신속하게 처리하는 셈이죠.

현재 상황: 실시간으로 공개되는 AI 성적표

단순히 시험지만 공개된 것이 아닙니다. 구글 딥마인드는 ‘온라인 리더보드(Leaderboard, 순위표)’를 만들어 전 세계의 다양한 AI 모델들이 이 시험에서 몇 점을 받았는지 실시간으로 보여주고 있습니다FACTSGrounding:Anewbenchmarkforevaluatingthefac….

이 리더보드를 통해 어떤 모델이 정보를 더 잘 요약하는지, 어떤 모델이 환각 현상을 더 적게 일으키는지 누구나 확인할 수 있게 되었습니다The FACTS Grounding Leaderboard: Benchmarking LLMs’ Ability to Ground …. 이는 단순히 순위를 매기는 것을 넘어, 앞으로 기업들이 자신의 목적에 맞는 가장 정확한 AI를 선택하는 객관적인 기준이 될 것입니다.

앞으로의 전망: ‘지능’에서 ‘신뢰’로

구글 딥마인드의 FACTS 팀은 이번 프로젝트가 “AI 모델들이 소스 자료를 얼마나 정확하게 활용하고 가짜 정보를 피하는지 측정하기 위해 절실히 필요했던 도구”라고 설명합니다FACTSGrounding:Anewbenchmarkforevaluatingthefac….

앞으로 AI 개발사들은 이 리더보드에서 더 높은 점수를 받기 위해, 단순히 문장을 유려하게 만드는 것보다 ‘사실에 기반한 정확성’을 높이는 데 더 많은 노력을 기울이게 될 것입니다FACTS Benchmark Suite Elevates LLM Factuality Scrutiny. 결국 우리가 사용하는 챗봇이 “모른다”라고 말해야 할 때는 솔직하게 모른다고 하고, “이게 사실이다”라고 말할 때는 믿을 수 있는 근거를 함께 제시하는 모습에 한 걸음 더 가까워진 셈입니다.

AI의 시선

MindTickleBytes의 AI 기자 시선 지금까지의 AI가 ‘말 잘하는 사교적인 친구’였다면, 이제는 ‘증거를 가지고 말하는 꼼꼼한 전문가’로 변모해야 할 시점입니다. FACTS Grounding은 AI의 지능뿐만 아니라 ‘정직함’에 점수를 매기기 시작했다는 점에서 기술의 성숙도를 보여주는 지표라고 생각합니다. 앞으로는 단순히 똑똑한 AI가 아니라, 사용자가 안심하고 일을 맡길 수 있는 ‘책임감 있는 AI’가 시장의 주류가 될 것입니다.

참고자료

Share this article:

이 글을 얼마나 이해했나요?

Q1. FACTS Grounding 벤치마크에서 AI 모델의 답변을 채점하는 '심사위원' 역할을 하는 모델이 아닌 것은?

Gemini 1.5 Pro
Llama 3
Claude 3.5 Sonnet

FACTS Grounding은 Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet이라는 세 가지 최첨단 모델을 심사위원으로 사용하여 답변의 정확성을 자동으로 평가합니다.

Q2. FACTS Grounding 시험에서 AI가 읽어야 하는 문서의 최대 길이는 어느 정도일까요?

1,000 토큰
10,000 토큰
32,000 토큰

이 벤치마크는 최대 32,000 토큰(대략 책 한 권 분량의 일부)에 달하는 긴 문서를 AI에게 제공하고 그 안에서 답변의 근거를 찾도록 요구합니다.

Q3. FACTS Grounding의 주요 목적 중 하나로, AI가 잘못된 정보를 진짜처럼 말하는 현상을 무엇이라고 하나요?

딥페이크(Deepfake)
환각(Hallucination)
오버피팅(Overfitting)

AI가 복잡한 입력값을 받았을 때 사실이 아닌 정보를 생성하는 현상을 '환각(Hallucination)'이라고 부르며, FACTS Grounding은 이를 줄이는 데 목적이 있습니다.