AI가 정말 똑똑한 걸까, 아니면 문제집만 외운 걸까? 지능 측정의 새로운 기준

AI Summary

정적인 시험 문제를 푸는 것을 넘어, 이제 AI는 전략 게임과 창의성, 새로운 기술을 배우는 효율성을 통해 그 진짜 실력을 검증받기 시작했습니다.

AI가 수능 만점을 받으면, 진짜 ‘천재’가 된 걸까요?

상상해보세요. 어떤 학생이 시중에 나온 모든 문제집과 기출문제를 글자 하나 틀리지 않고 전부 외웠습니다. 이 학생은 시험을 치면 항상 100점을 받겠지만, 만약 시험 문제의 숫자 하나만 살짝 바꾸거나 교과서에 없는 엉뚱한 상황을 질문하면 어떻게 될까요? 아마 한 마디도 대답하지 못하고 당황할 가능성이 큽니다. 우리는 이런 학생을 보고 “참 똑똑하다”라고 하기보다는 “단순 암기력이 정말 좋네”라고 평가할 것입니다.

지금의 인공지능(AI)이 처한 상황이 바로 이와 비슷합니다. 지금까지 우리는 AI의 실력을 측정하기 위해 벤치마크(Benchmark, 성능 측정 기준)라는 정해진 시험지를 사용해 왔습니다. 하지만 AI가 이 시험 문제들을 통째로 학습 데이터에 포함해 ‘답안지를 미리 외워버리는’ 현상이 발생하면서, 과연 AI가 정말로 원리를 이해하고 문제를 푸는 것인지에 대한 의문이 커지고 있습니다. The way we measure progress in AI is terrible

이제 전문가들은 AI의 지능을 측정하는 방식을 근본적으로 다시 생각하기 시작했습니다. 단순히 정해진 정답을 맞히는 수준을 넘어, AI가 얼마나 전략적으로 사고하는지, 얼마나 창의적인지, 그리고 새로운 기술을 얼마나 빨리 배우는지 측정하려는 흥미로운 시도들이 이어지고 있습니다.

벤치마크의 함정: “시험 문제를 통째로 외운 AI”

최근 AI 성능 지표를 보면 고개를 갸우뚱하게 만드는 현상이 발견됩니다. 예를 들어, 이전 모델이 90점을 받았는데 새로 나온 모델은 93점을 받았다고 가정해 봅시다. 겉으로 보기에는 발전 속도가 눈에 띄게 느려진 것처럼 보일 수 있습니다. 하지만 이는 AI 기술이 정체된 것이 아니라, 우리가 사용하는 시험지(벤치마크) 자체가 이미 ‘정답이 다 공개된’ 상태이기 때문일 수 있습니다. The way we measure progress in AI is terrible

또한, 많은 기업이 AI의 효율성을 자랑할 때 ‘와트당 토큰 생성량(Tokens-per-watt, 전력 소비량 대비 데이터 생성량)’ 같은 수치를 내세웁니다. 비유하면, 이는 마치 자동차의 연비가 얼마나 좋은지 자랑하는 것과 같습니다. 하지만 연비가 좋다고 해서 그 차를 운전하는 사람이 목적지까지 가장 안전하고 빠른 길을 찾아내는 ‘운전 실력’이 뛰어나다는 뜻은 아닙니다. We Invested in AI. We Forgot to Measure What Matters. 즉, 저렴한 비용으로 결과물을 많이 뽑아낸다고 해서 그 결과물이 정확하거나 지혜롭다는 증거는 될 수 없다는 것입니다.

지능 측정의 새로운 물결: 정면 대결의 시작

이러한 한계를 극복하기 위해 등장한 것이 바로 ‘카글 게임 아레나(Kaggle Game Arena)’입니다. 구글은 AI 모델들이 공공장소에서 서로 마주 앉아 실시간으로 전략 게임 대결을 펼치는 새로운 플랫폼을 도입했습니다. Rethinking how we measure AI intelligence

전략 게임은 AI의 진짜 실력을 평가하는 데 있어 가장 완벽한 시험장입니다. 여기에는 세 가지 이유가 있습니다.

역동적인 환경: 정해진 정답을 고르는 것이 아니라, 상대방이 어떻게 움직이느냐에 따라 매 순간 전략을 수정해야 합니다.
명확한 승패: “누가 더 똑똑해 보이는가”라는 주관적인 판단 대신, 이겼는지 졌는지가 숫자로 분명하게 드러납니다.
고차원적 사고: 승리하기 위해서는 당장의 수만 보는 것이 아니라 장기적인 계획을 세우고, 복잡한 상황을 분석하며 적응해 나가는 능력이 필수적입니다. Rethinking how we measure AI intelligence

체스나 바둑 같은 게임에서 AI가 보여주는 모습은 단순한 암기가 아니라 ‘전략적 추론’의 영역에 가깝습니다. 이를 통해 우리는 AI가 얼마나 일반적인 문제 해결 능력을 갖췄는지 더 신뢰할 수 있게 됩니다. Rethinking how we measure AI intelligence – VedereAI

창의성과 학습 효율성: “어떻게 배우는가”가 핵심이다

이제 지능의 정의는 ‘얼마나 많은 지식을 쌓았는가’에서 ‘얼마나 효율적으로 새로운 기술을 배우는가’로 그 중심이 옮겨가고 있습니다.

1. 창의성(Creativity)이라는 새로운 잣대

연구자들은 이제 창의성을 지능의 중요한 지표로 사용하고 있습니다. 여기서 창의성이란 단순히 예쁜 그림을 그리는 기술이 아닙니다. 쉽게 말해서, 수평적 사고(Lateral thinking, 고정관념에서 벗어나 자유롭게 생각하는 방식)를 통해 서로 관련 없어 보이는 정보들 사이에서 예상치 못한 연결고리를 찾아내고 독창적인 결과물을 만드는 능력을 말합니다. How do you measure artificial intelligence? 스탠퍼드 대학교의 제레미 어틀리(Jeremy Utley) 교수는 많은 이들이 아직 AI의 이러한 창의적 잠재력을 충분히 활용하지 못하고 있다고 강조합니다. How to Master AI Powered Creativity in Just 13 Minutes - YouTube

2. 기술 습득의 ‘가성비’

진정한 지능은 수조 개의 데이터를 쏟아부어 학습시키는 ‘물량 공세’가 아니라, 아주 적은 경험으로도 새로운 상황에 빠르게 적응하는 능력에서 나옵니다. 이를 측정하기 위해 고안된 것이 ARC(Abstraction and Reasoning Corpus, 추상 및 추론 코퍼스)라는 벤치마크입니다. ARC는 인간이 가진 ‘일반 유동 지능(General fluid intelligence, 처음 마주하는 상황에서 논리적으로 문제를 해결하는 능력)’을 측정하도록 설계되었습니다. How Do We Measure And Define Intelligence In Artificial Systems? - Consensus Academic Search Engine

인간을 닮는 것이 지능의 정답일까?

우리는 흔히 ‘인간처럼 생각하고 행동하는 AI’를 최고의 목표로 삼아왔습니다. 이를 튜링 테스트 혹은 ‘이미테이션 게임(Imitation Game, 흉내 내기 게임)’이라고 부르기도 합니다. 하지만 최신 연구들은 이 가정에 근본적인 질문을 던지고 있습니다. [Beyond the Imitation Game: Rethinking How We Measure General Intelligence

Research Communities by Springer Nature](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence)

자율적인 AI 시스템은 인간과는 전혀 다른 목표와 사고방식을 진화시킬 수도 있습니다. 따라서 단순히 인간의 행동을 똑같이 복사하는 것을 기준으로 삼기보다, AI 자체가 가진 고유한 인지 능력과 가치를 측정할 방법이 필요하다는 주장이 힘을 얻고 있습니다. 궁극적으로 우리가 꿈꾸는 AGI(Artificial General Intelligence, 인공 일반 지능)는 인간의 모든 인지 작업을 대등하거나 뛰어넘는 수준을 의미하기 때문입니다. Artificial general intelligence - Wikipedia

우리가 맞이할 미래의 변화

지능 측정 방식의 변화는 우리의 일상을 어떻게 바꿀까요?

첫째, 교육 현장의 변화입니다. AI가 협력적 문제 해결(Collaborative problem-solving) 능력을 측정하는 도구로 활용되면서, 우리 아이들이 친구들과 어떻게 소통하며 문제를 해결하는지 더 정교하게 평가하고 도와주는 교육 방식이 도입될 수 있습니다. How AI could transform the way we measure kids’ intelligence

둘째, 더 믿을 수 있는 AI 서비스입니다. 단순히 정답을 외운 AI가 아니라, 스스로 ‘생각하는 능력’을 혹독하게 검증받은 AI가 우리의 비서가 된다면, 우리는 더 복잡하고 예상치 못한 업무도 안심하고 맡길 수 있게 될 것입니다.

결국, AI의 지능을 제대로 측정하는 것은 단순히 기술적인 문제를 넘어, 우리가 인공지능과 어떤 미래를 함께 그려나갈지를 결정하는 가장 중요한 이정표가 될 것입니다.

AI의 시선 (AI’s Take)

MindTickleBytes의 AI 기자 시선 지금까지의 AI가 방대한 백과사전을 통째로 집어삼킨 ‘기록가’에 가까웠다면, 이제는 그 지식을 바탕으로 새로운 수를 두는 ‘전략가’이자 ‘창작자’로 진화하고 있습니다. 지능의 척도가 단순한 ‘암기’에서 ‘적응’과 ‘추론’으로 바뀌는 것은, 우리가 AI를 단순한 도구가 아닌 우리 곁의 진정한 파트너로 인정하기 시작했다는 기분 좋은 신호이기도 합니다.

참고자료

Rethinking how we measure AI intelligence

[Beyond the Imitation Game: Rethinking How We Measure General Intelligence

Research Communities by Springer Nature](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence)

How do you measure artificial intelligence?
How Do We Measure And Define Intelligence In Artificial Systems? - Consensus Academic Search Engine
[Rethinking how we measure AI intelligence 67nj](https://www.67nj.org/rethinking-how-we-measure-ai-intelligence)
Artificial general intelligence - Wikipedia
Rethinking how we measure AI intelligence – VedereAI
The way we measure progress in AI is terrible
How AI could transform the way we measure kids’ intelligence
How to Master AI Powered Creativity in Just 13 Minutes - YouTube
We Invested in AI. We Forgot to Measure What Matters.
Rethinking how we measure AI intelligence - googblogs.com

Share this article:

이 글을 얼마나 이해했나요?

Q1. 최근 구글이 도입한 '카글 게임 아레나(Kaggle Game Arena)'는 AI를 어떻게 측정하나요?

과거 수능 기출 문제를 풀게 한다.
AI 모델끼리 실시간 전략 게임으로 대결한다.
단순히 응답 속도만 측정한다.

카글 게임 아레나는 AI 모델들이 전략 게임에서 정면 대결을 펼치게 함으로써 역동적인 능력을 측정합니다.

Q2. AI 지능의 새로운 척도로 떠오르고 있는 '창의성'은 무엇을 의미하나요?

단순히 데이터를 빠르게 복사하는 능력
수평적 사고를 통해 예상치 못한 연결을 만드는 능력
전기 소모량을 최소화하는 능력

창의성은 수평적 사고를 통해 이질적인 정보 사이의 연결을 만들고 독창적인 결과물을 내는 능력을 뜻합니다.

Q3. 지능을 '기술 습득의 효율성'으로 정의하는 관점에서 중요한 요소가 아닌 것은?

일반화의 난이도
기존의 배경 지식
데이터를 단순히 많이 저장하는 능력

새로운 관점에서의 지능은 단순히 양적인 데이터 축적이 아니라, 적은 경험으로도 얼마나 빨리 일반화된 기술을 배우느냐에 집중합니다.