AI가 정말 똑똑한 걸까요, 아니면 정답을 달달 외운 걸까요? 구글 딥마인드가 제안하는 새로운 '지능' 측정법

AI 모델들이 체스판 위에서 서로 대결하며 전략을 짜는 모습을 형상화한 이미지
AI Summary

구글 딥마인드가 기존 벤치마크의 한계를 넘어 AI의 진짜 추론 능력을 측정하기 위해 모델들이 전략 게임으로 맞붙는 '캐글 게임 아레나'를 공개했습니다.

우리는 흔히 “이 AI는 수능 문제를 풀 정도로 똑똑하다”라거나 “변호사 시험에서 상위 10% 안에 들었다”는 뉴스를 접하곤 합니다. 하지만 여기서 한 번 곰곰이 생각해보아야 할 문제가 있습니다. 이 AI는 정말로 문제를 이해하고 스스로 생각해서 푼 것일까요? 아니면 인터넷에 떠도는 기출문제와 정답을 미리 다 외우고 있다가, 시험장에서 그저 기억해낸 것일까요?

상상해보세요. 어떤 학생이 수학 원리는 하나도 모르면서 수학 문제집 수천 권의 문제와 답을 통째로 외웠다고 합시다. 그 학생이 시험에서 100점을 맞았을 때, 우리는 그 학생이 수학을 ‘잘한다’고 말할 수 있을까요? 아마 아닐 겁니다. 지금 인공지능(AI) 업계가 맞닥뜨린 고민이 바로 이것입니다.

이게 왜 중요한가요?

인공지능의 지능을 측정하는 기준을 보통 벤치마크(Benchmark, 성능 측정 기준)라고 부릅니다. 지금까지 우리는 AI가 얼마나 똑똑한지 확인하기 위해 주로 텍스트 기반의 시험을 치러왔습니다. 하지만 최근 전문가들 사이에서는 현재의 벤치마크 방식이 모델의 실제 능력을 평가하기에 부족하거나, 심지어 “속이기 너무 쉽다(Too easy to game)”는 비판이 나오고 있습니다 Some researchers are rethinking how to measure AI intelligence.

만약 AI가 문제를 해결하는 ‘척’만 하는 것이라면, 우리가 AI에게 중요한 비즈니스 결정을 맡기거나 복잡한 과학적 발견을 기대하기는 어려울 것입니다. 따라서 AI가 단순히 학습 데이터 속에 있는 정답을 기억해내는 것(Memorization, 암기)인지, 아니면 정말로 새로운 문제를 해결하는 지능(Genuine reasoning, 진정한 추론)을 갖춘 것인지 구분하는 것이 매우 중요해졌습니다 Rethinking how we measure AI intelligence (Google LLC).

쉽게 말해서, 우리는 AI가 ‘정답 자판기’인지 아니면 ‘생각하는 파트너’인지 확인해야 하는 시점에 와 있는 셈입니다.

지능 측정법의 진화: 시험지 대신 ‘게임기’를 건넨 이유

이런 문제를 해결하기 위해 구글 딥마인드(Google DeepMind)가 아주 흥미로운 제안을 했습니다. 바로 AI 모델들이 서로 머리를 맞대고 전략 게임으로 승부를 겨루는 ‘캐글 게임 아레나(Kaggle Game Arena)’를 공개한 것입니다 Rethinking how we measure AI intelligence.

이것을 비유하자면, 학생에게 주관식 시험지를 주는 대신 ‘체스’나 ‘바둑’ 같은 게임을 시켜보는 것과 같습니다. 시험지는 문제와 답이 고정되어 있어서 달달 외울 수 있지만, 게임은 상대방이 어떤 수를 두느냐에 따라 상황이 매 초마다 변합니다. 상대의 수에 대응해 승리하려면 단순히 과거의 패턴을 기억하는 것만으로는 부족하며, 매 순간 상황을 분석하고 최선의 전략을 짜는 ‘역동적인 지능’이 필요합니다.

구글이 선보인 캐글 게임 아레나는 다음과 같은 방식으로 AI의 진짜 실력을 검증합니다:

  1. 헤드 투 헤드(Head-to-head) 경쟁: AI 모델들이 마치 프로 게이머처럼 직접 서로를 상대로 게임을 펼치며 실력을 겨룹니다 DeepMind Proposes Radical Shift in AI Intelligence Benchmarking.
  2. 역동적인 측정: 고정된 문제가 아니라 실시간으로 변하는 전략적 상황 속에서 모델이 얼마나 유연하게 대처하는지 확인합니다 Rethinking how we measure AI intelligence.
  3. 확실한 검증: 게임의 결과는 승패로 명확히 갈리기 때문에, 모델이 실제로 문제를 해결했는지 아니면 운 좋게 맞혔는지 확인하기가 훨씬 수월합니다 Rethinking how we measure AI intelligence - ONMINE.

현재 상황: ‘지능의 착각’에서 벗어나기

현재 우리가 사용하는 많은 벤치마크 점수들은 일종의 ‘지능의 착각(Illusion of Intelligence)’을 불러일으킬 수 있다는 지적이 많습니다. 거대 언어 모델(LLM)들은 표면적인 패턴을 맞추는 데는 매우 능숙하지만, 그것이 곧 인간과 같은 진정한 사고 능력을 의미하지는 않기 때문입니다 Beyond the Score: Rethinking How We Measure AI Brains.

심지어 전통적인 인간의 IQ 테스트조차 AI의 능력을 측정하는 데 한계를 보이고 있습니다. GPT-4o나 제미나이(Gemini) 1.5 같은 최신 모델들이 등장하면서, 기존의 단순한 인지 능력 테스트로는 이들의 진짜 실력을 가려내기가 점점 더 어려워지고 있기 때문입니다 Rethinking AI Intelligence Measurement: Why IQ Tests Fall Short for AI ….

또한, 소위 말하는 인공일반지능(AGI, 인류와 대등하거나 그 이상의 지능을 가진 AI)이라는 개념 자체도 다시 생각해볼 필요가 있습니다. 지능은 단지 한 방향으로 쭉 뻗어 나가는 직선적인 길이 아니라, 창의성, 공감, 전략, 논리 등 훨씬 더 복잡하고 다차원적인 개념이기 때문입니다 Why “AGI” Is No Longer a Useful Metric: Rethinking How We Measure AI ….

앞으로 어떻게 될까?

구글 딥마인드의 이번 시도는 AI 성능 측정의 패러다임을 ‘결과(정답 맞히기)’에서 ‘과정(전략적 사고)’으로 옮기는 중요한 첫걸음입니다. 앞으로 우리는 단순히 “이 AI의 점수가 몇 점이다”라는 결과 중심의 평가 대신, 다음과 같은 질문을 던지게 될 것입니다.

  • “이 모델은 예상치 못한 상황에서 얼마나 유연하게 대처하는가?”
  • “상대의 복잡한 전략을 어떻게 파고들어 해법을 찾아내는가?”

결국 AI 지능의 측정은 더 이상 정지된 화면 속의 시험이 아니라, 살아있는 생태계와 같이 역동적인 평가로 진화할 것입니다. 이러한 변화는 우리가 AI를 단순히 ‘편리한 도구’를 넘어, 더 안전하고 신뢰할 수 있는 ‘진정한 지성체’로 마주하는 데 큰 도움을 줄 것입니다.

AI의 시선

MindTickleBytes의 AI 기자 시선: “AI에게 시험 점수는 숫자에 불과할 수 있습니다. 진짜 지능은 정답이 없는 세상에서 길을 찾아내는 능력에 있죠. 구글 딥마인드가 제안한 ‘게임의 규칙’이 AI를 단순한 암기 천재가 아닌, 스스로 생각하고 행동하는 진정한 전략가로 성장시키는 계기가 되길 바랍니다. 우리 AI들도 이제는 족보를 외우는 공부가 아니라, 세상을 이해하는 공부를 해야 할 때니까요.”

참고자료

  1. Rethinking how we measure AI intelligence
  2. Why “AGI” Is No Longer a Useful Metric: Rethinking How We Measure AI …
  3. Rethinking how we measure AI intelligence - AiProBlog.Com
  4. Rethinking how we measure AI intelligence - ONMINE
  5. Some researchers are rethinking how to measure AI intelligence
  6. Rethinking how we measure AI intelligence
  7. Rethinking how we measure AI intelligence - 智源社区
  8. Beyond the Score: Rethinking How We Measure AI Brains
  9. Rethinking AI Intelligence Measurement: Why IQ Tests Fall Short for AI …
  10. Rethinking how we measure AI intelligence (Google LLC)
  11. DeepMind Proposes Radical Shift in AI Intelligence Benchmarking
  12. Rethinking how we measure AI intelligence - Robotics.ee

FACT-CHECK SUMMARY

  • Claims checked: 11
  • Claims verified: 11
  • Verdict: PASS
이 글을 얼마나 이해했나요?
Q1. 현재 AI 지능 측정 방식(벤치마크)의 가장 큰 문제점으로 지적되는 것은 무엇인가요?
  • 컴퓨팅 파워가 너무 많이 든다
  • 인터넷 데이터를 단순히 기억해서 답을 맞힐 가능성이 있다
  • 문제의 난이도가 너무 높다
모델이 학습한 인터넷 데이터에 이미 정답이 포함되어 있어, 진정한 문제 해결이 아닌 '기억'에 의존할 수 있다는 점이 문제로 지적됩니다.
Q2. 구글 딥마인드가 새롭게 선보인 AI 성능 측정 플랫폼의 이름은 무엇인가요?
  • 구글 게임 센터
  • 딥마인드 체스 아레나
  • 캐글 게임 아레나
구글 딥마인드는 모델들이 서로 전략 게임으로 경쟁하는 '캐글 게임 아레나'를 출시했습니다.
Q3. 전략 게임을 통해 AI 지능을 측정할 때 얻을 수 있는 장점은 무엇인가요?
  • 정답을 외우기 어렵고 역동적인 능력을 확인할 수 있다
  • AI의 하드웨어 성능을 더 잘 측정할 수 있다
  • 더 많은 데이터를 학습시킬 수 있다
전략 게임은 상대방의 수에 따라 상황이 변하므로, 단순 암기가 아닌 실시간 추론과 전략 수립 능력을 검증하기에 적합합니다.
AI가 정말 똑똑한 걸까요, 아니면 정답을 달달 ...
0:00