AI가 얼마나 똑똑해졌는지 어떻게 알 수 있을까요? 구글 딥마인드가 제시한 'AI 성적표'

AI Summary

구글 딥마인드가 AI의 지능을 단순히 하나의 점수가 아닌 10가지 인지 능력을 통해 다각도로 평가하는 새로운 기준, '인지 분류 체계(Cognitive Taxonomy)'를 공개했습니다.

상상해보세요. 여러분의 자녀가 학교에서 돌아와 “엄마, 나 오늘 ‘똑똑함’ 시험에서 80점 받았어!”라고 자랑스럽게 말합니다. 그런데 성적표를 자세히 보니 수학 점수인지, 국어 점수인지, 아니면 체육 시간의 달리기 점수인지 전혀 적혀 있지 않습니다. 아이가 정말 수리에 밝은지, 아니면 언어적 감각이 뛰어난지 알 길이 없겠죠.

지금까지의 인공지능(AI)도 이와 비슷했습니다. 우리는 매일 “이 AI는 천재적이다”, “성능이 압도적이다”라는 말을 듣지만, 구체적으로 AI가 어떤 면에서 인간과 비슷해졌고, 어떤 부분에서 여전히 갈 길이 먼지 측정할 명확한 기준이 없었습니다. 특히 인간처럼 모든 지적인 일을 해낼 수 있는 ‘인공 일반 지능(AGI, Artificial General Intelligence)’에 우리가 얼마나 가까이 와 있는지를 두고 전문가들 사이에서도 제각각 다른 목소리가 나왔습니다. Source 5

이러한 모호함을 해결하기 위해, 세계 최고의 AI 연구소인 구글 딥마인드(Google DeepMind)가 2026년 3월, AI의 지능을 체계적으로 측정할 수 있는 정밀한 잣대인 ‘인지 분류 체계(Cognitive Taxonomy)’를 발표했습니다. Source 1, Source 10

이게 왜 중요한가요?

단순히 AI가 시를 잘 쓰거나 코딩을 돕는 수준을 넘어, 인간의 지능을 전반적으로 대체하려는 단계에 들어섰기 때문입니다. 이 시점에서 명확한 기준이 필요한 이유는 세 가지입니다.

우리의 현 위치 파악: 목적지(AGI)가 어디인지 모른 채 안개 속을 걷는 것보다, 지도 위에 현재 좌표를 정확히 찍어보는 것이 훨씬 안전하고 효율적입니다. Source 6
안전과 통제의 열쇠: AI가 어떤 특정 인지 능력에서 인간을 압도하기 시작하는지 미리 안다면, 발생할 수 있는 위험을 예측하고 적절한 안전 장치를 마련할 수 있습니다. 예를 들어, ‘속임수’나 ‘사회적 조작’ 능력이 급상승한다면 우리는 즉시 주의를 기울여야 하겠죠.
지능의 본질에 집중: 최근 AI 업계는 “이 AI가 얼마나 많은 돈을 벌어다 주는가”와 같은 상업적 가치로 지능을 평가하려는 경향이 있었습니다. Source 13 딥마인드는 이러한 돈의 논리에서 벗어나, ‘인간의 마음과 사고(인지)’라는 근본적인 가치로 평가의 중심을 돌려놓으려 합니다. Source 13

AI의 ‘인지 능력 10종 경기’

딥마인드가 제안한 이번 프레임워크를 비유하자면 ‘AI를 위한 올림픽 10종 경기’라고 할 수 있습니다. 육상 10종 경기가 달리기, 점프, 던지기 등 다양한 체력을 고루 평가하듯, 딥마인드도 AI의 지능을 10가지 핵심적인 인지 기능(Cognitive Faculties)으로 나누어 평가하자고 제안합니다. Source 10, Source 11, Source 12

이 10가지 능력에는 우리가 흔히 똑똑하다고 느끼는 요소들이 포함되어 있습니다.

기억력: 방대한 정보를 잊지 않고 불러오는 능력
추론력: 논리적으로 문제를 해결하는 능력
언어 이해력: 문맥과 뉘앙스를 파악하는 능력
사회적 지능: 타인의 의도를 파악하는 능력 등

이렇게 지능을 세분화하면, “A 모델은 암기력은 금메달급이지만, 창의적인 계획 수립(Planning)은 초등학생 수준이다”라는 식의 입체적인 진단이 가능해집니다.

AI는 얼마나 똑똑해야 ‘인간급’일까?

딥마인드는 매우 엄격하고 구체적인 합격 기준을 세웠습니다. 어떤 AI 시스템이 특정 인지 능력에서 “일반인 샘플 중 최소 50% 이상의 능력과 일치한다”면, 그 분야에서 지능적 역량을 갖췄다고 인정합니다. Source 2

쉽게 말해서, AI가 수학 문제를 풀 때 평범한 사람 100명 중 50명보다 잘하거나 비슷하게 해낸다면 “이 AI는 인간 수준의 수리 추론 능력을 갖추기 시작했다”고 판정하는 것이죠. 100% 완벽하지 않더라도, 평균적인 인간만큼만 해낼 수 있다면 실생활에서 충분히 제 역할을 할 수 있다고 보는 현실적인 기준입니다. Source 2

이론을 넘어 실전으로: 2억 7천만 원의 현상금

딥마인드는 단순히 “이런 기준이 좋다”고 말로만 주장하지 않았습니다. 이를 실제로 구현하기 위해 세 단계의 정밀한 실험 절차(Protocol)를 제안했습니다. Source 4

정의: 10가지 인지 능력이 정확히 무엇인지 학술적으로 정의합니다.
시험 문제(Benchmark): 각 능력을 측정할 수 있는 고난도 시험 문제를 개발합니다.
대결: 실제 인간 집단과 AI를 같은 조건에서 비교 테스트합니다. Source 4

여기에 전 세계의 천재 개발자들을 동참시키기 위해 총 20만 달러(약 2억 7천만 원)의 상금을 건 ‘캐글(Kaggle) 해커톤’을 열었습니다. Source 10 인류 공동의 자산이 될 ‘AI 지능 측정기’를 함께 만들자는 도전장입니다. Source 7, Source 8, Source 15

“이미 왔다” vs “아직 멀었다”: 거물들의 의견 차이

흥미로운 점은 이 발표 직전, 엔비디아(Nvidia)의 젠슨 황(Jensen Huang) 회장이 “우리는 이미 AGI를 달성했다”고 주장하며 업계를 들썩이게 했다는 사실입니다. Source 13 하지만 딥마인드의 엄격한 잣대를 들이대면 이야기가 달라집니다. 젠슨 황 회장이 ‘특정 시험 통과나 경제적 성과’를 기준으로 본 반면, 딥마인드는 ‘인간의 복합적인 인지 능력’이라는 훨씬 까다로운 기준을 고수하고 있기 때문입니다. Source 13

우리가 맞이할 미래의 모습

이제 막 걸음마를 뗀 이 ‘인지 분류 체계’는 앞으로 우리가 AI를 대하는 방식을 완전히 바꿀 것입니다.

표준 성적표의 등장: 앞으로 출시될 GPT나 클로드(Claude) 같은 모델들은 “우리 모델은 딥마인드 체계에서 10개 항목 중 8개가 인간 상위 50%를 넘었습니다”라는 성적표를 의무적으로 제출하게 될지도 모릅니다. Source 12
정밀한 약점 보완: 현재 AI가 언어는 유창하지만 ‘상황 대처 및 계획 수립(Planning)’은 취약하다는 점이 수치로 드러난다면, 연구자들은 무엇을 우선적으로 고쳐야 할지 정확히 알게 됩니다. Source 11
인간을 더 깊이 이해하는 계기: AI를 측정하기 위해 인간의 뇌와 인지 능력을 연구하다 보면, 거꾸로 우리 인간이 얼마나 복잡하고 위대한 존재인지 재발견하는 놀라운 여정이 될 것입니다. Source 9

결국 이번 발표의 핵심은 “측정할 수 없으면 관리할 수 없다”는 경영의 진리를 AI 분야에 도입한 것입니다. 구글 딥마인드는 AGI라는 거대한 미지의 바다를 항해하는 인류에게, 아주 정밀한 나침반 하나를 선물했습니다. Source 1

AI의 시선: MindTickleBytes AI 기자 시선

“지능은 단일한 점수로 정의될 수 없습니다. 딥마인드가 제시한 10가지 인지 능력은 마치 오케스트라를 구성하는 다양한 악기들과 같습니다. 모든 악기가 조화롭게 연주될 때 비로소 우리는 그것을 ‘진정한 지능’이라 부를 수 있을 것입니다. 이번 프레임워크는 AI가 단순한 계산기를 넘어, 우리와 함께 세상을 이해하고 고민하는 진정한 동반자가 될 수 있을지 가늠하는 가장 중요한 시험대가 될 것입니다.”

참고자료

Measuring Progress Towards AGI: A Cognitive Framework
Measuring Progress Toward AGI: A Cognitive Framework (PDF)
Measuring Progress Towards AGI: A Cognitive Framework (AI Future Thinkers)
Measuring progress toward AGI: A cognitive framework (AI Phreaks)

[Measuring progress toward AGI: A cognitive framework

AI Flow](https://aiflow.news/2026/03/17/measuring-progress-toward-agi-a-cognitive-framework)

Measuring progress toward AGI: A cognitive framework – ONMINE
Google DeepMind unveils cognitive framework to track AGI progress
[Measuring progress toward AGI: A cognitive framework Hacker News](https://news.ycombinator.com/item?id=47424458)
Google DeepMind Releases Cognitive Framework to Measure AGI Progress, Launches $200K Kaggle Hackathon

[Measuring Progress Toward Agi A Cognitive Framework

PDF

Cognition](https://www.scribd.com/document/1015882718/Measuring-Progress-Toward-Agi-a-Cognitive-Framework)

Google DeepMind Proposes a Cognitive Framework for Measuring AGI Progress - Insights

[Nvidia’s Jensen Huang says ‘we’ve achieved AGI.’ But no…

Fortune](https://fortune.com/2026/03/30/agi-definition-jensen-huang-lex-fridman-deepmind-turing-text-cognitive-taxonomy/)

News— Google DeepMind
Measuring Progress Towards AGI: A Cognitive… - NewsyToday
Measuring Progress Towards AGI: A Cognitive Framework (Tech AI App)

FACT-CHECK SUMMARY

Claims checked: 13
Claims verified: 12
Verdict: PASS

Share this article:

이 글을 얼마나 이해했나요?

Q1. 구글 딥마인드가 제시한 새로운 AGI 측정 체계의 핵심은 무엇인가요?

AI가 벌어들이는 수익을 측정한다
단일 점수가 아닌 10가지 핵심 인지 능력을 평가한다
단순히 튜링 테스트 통과 여부만 확인한다

딥마인드는 지능을 단일 지표가 아닌 10가지 주요 인지 능력으로 세분화하여 평가하는 '인지 분류 체계'를 제안했습니다.

Q2. 이번 프레임워크에서 AI가 특정 인지 능력을 갖췄다고 판단하는 기준은 무엇인가요?

인간 전문가의 100% 능력을 발휘할 때
일반인 샘플의 최소 50% 이상의 능력과 일치할 때
전 세계 모든 언어를 동시에 번역할 수 있을 때

시스템이 일반인 샘플의 최소 50% 이상의 인지 능력과 일치할 때 해당 능력을 입증한 것으로 간주합니다.

Q3. 딥마인드가 이 이론을 실천에 옮기기 위해 시작한 이벤트는 무엇인가요?

AI 로봇 축구 대회
20만 달러 상금의 캐글(Kaggle) 해커톤
전 세계 개발자 컨퍼런스

딥마인드는 평가 벤치마크를 구축하기 위해 총 20만 달러의 상금을 건 캐글 해커톤을 개최했습니다.