[GPT-5.5의 굴욕] '암기왕' AI, 낯선 게임 앞에선 0.43점? 진짜 지능을 묻다

AI Summary

압도적인 성능을 자랑하던 GPT-5.5가 정답이 정해지지 않은 새로운 유형의 퍼즐 게임에서 1점도 안 되는 점수를 받으며, AI의 '진짜 지능'에 대한 의문이 제기되고 있습니다.

상상해보세요. 우리 주변에는 세상의 모든 기출문제를 달달 외워서 항상 전교 1등을 놓치지 않는 ‘암기 천재’ 친구가 한 명쯤 있습니다. 이 친구는 어떤 시험이든 척척 풀어내며 모두의 부러움을 삽니다. 그런데 어느 날, 선생님이 교과서 어디에도 나오지 않고 누구도 가르쳐준 적 없는 완전히 새로운 방식의 퍼즐 게임을 가져왔습니다. 과연 이 친구는 어떻게 했을까요? 놀랍게도 단 한 문제도 제대로 풀지 못한 채 쩔쩔매고 맙니다.

이 이야기는 단순히 상상 속의 이야기가 아닙니다. 지난 2026년 4월 23일, 전 세계의 기대를 한 몸에 받으며 화려하게 등장한 OpenAI의 최신 AI 모델, GPT-5.5가 실제로 마주하고 있는 당혹스러운 현실입니다. GPT-5.5 Citations Hallucination Rate

분명 GPT-5.5는 출시 직후 각종 성능 지표(Benchmark, AI의 능력을 측정하는 표준 시험)에서 경쟁자들을 압도하며 당당히 1위를 휩쓸었습니다. 하지만 최근 공개된 가장 까다로운 추론 테스트인 ARC-AGI-3에서 0.43%라는 충격적인 성적표를 받았습니다. 1점도 채 되지 않는 이 점수는 우리가 그동안 ‘지능’이라고 믿어왔던 AI의 민낯을 고스란히 드러내고 있습니다. GPT-5.5и Opus 4.7 провалились в ARC-AGI-3. Вот почему / Хабр

대체 무엇이 문제였을까요? 왜 AI는 우주의 기원을 설명할 정도로 똑똑해 보이면서도, 어린아이도 풀 법한 낯선 퍼즐 앞에서는 이토록 무너지는 걸까요? 오늘은 그 비밀을 파헤쳐 봅니다.

이게 왜 중요한가요? (Why It Matters)

우리가 AI에게 진정으로 기대하는 것은 단순히 ‘대답을 잘하는 앵무새’가 아닙니다. 인간처럼 ‘스스로 생각하고 낯선 문제를 해결하는 능력’이죠. 하지만 이번 사건은 현재의 AI가 진정한 의미의 지능, 즉 인간 수준의 사고력을 갖춘 ‘인공 일반 지능(AGI)’에 도달하기에는 여전히 거대한 장벽이 가로막고 있음을 시사합니다.

그동안 거대 테크 기업들은 마치 거대한 도서관에 세상의 모든 책을 집어넣듯, 엄청난 양의 데이터와 슈퍼컴퓨터를 쏟아붓는 ‘물량 공세(Brute-forcing)’에 집중해 왔습니다. [GPT-5.5 - No ARC-AGI-3 scores

Hacker News](https://news.ycombinator.com/item?id=47882153) 하지만 이번 ARC-AGI-3 결과는 단순히 공부 양을 늘린다고 해서 ‘응용력’이나 ‘창의적 사고’가 저절로 생기는 것은 아니라는 사실을 뼈아프게 증명했습니다.

사용자 입장에서 이는 두 가지 중요한 경고등을 켜줍니다. 첫째, AI는 여전히 처음 접하는 복잡한 업무를 맡기기에는 신뢰도가 낮다는 점입니다. 둘째, AI의 답변이 그럴듯해 보여도 실제로는 학습 데이터를 교묘하게 짜깁기한 ‘환각(Hallucination, 그럴듯한 거짓말을 하는 현상)’일 확률이 매우 높다는 것입니다. 실제로 GPT-5.5는 신뢰성 테스트에서 86%라는 믿기 힘든 오류율을 기록하며 숙제를 남겼습니다. GPT-5.5 Citations Hallucination Rate

쉽게 이해하기: ‘암기’와 ‘추론’의 한 끝 차이 (The Explainer)

AI의 지능이 작동하는 방식을 이해하기 위해 ‘사진 필터’와 ‘화가’의 차이를 비유해 보겠습니다.

지금의 AI 모델인 트랜스포머(Transformer, 문장 속 단어들의 관계를 파악하는 핵심 구조)는 아주 정교한 ‘사진 필터’와 비슷합니다. 수조 장의 사진을 보고 ‘이런 종류의 사진에는 이런 필터를 씌우면 예쁘게 나온다’는 공식을 완벽하게 익힌 상태죠. 만약 학습 데이터에 들어있던 것과 비슷한 질문이 들어오면(내삽, Interpolation), AI는 빛의 속도로 정확한 답을 내놓습니다. [GPT-5.5 - No ARC-AGI-3 scores

Hacker News](https://news.ycombinator.com/item?id=47882153)

하지만 ARC-AGI-3 테스트는 완전히 다른 규칙을 제시합니다. 이 테스트는 정해진 정답을 찾는 것이 아니라, AI가 생전 처음 보는 ‘상호작용형 게임 환경’에 던져져 스스로 논리를 세우고 문제를 풀어야 합니다. Even the latest AI models make three systematic reasoning errors 비유하자면, 매일 같은 길만 다니던 내비게이션에게 지도가 없는 미지의 섬에서 길을 찾아보라고 시킨 셈입니다.

여기서 현재의 AI는 세 가지 치명적인 추론 오류를 범하며 무너졌습니다. ARCPrize выявил три сбоя GPT-5.5 и Opus

맥락 유지 실패: 게임의 규칙을 한창 이해하다가도 중간에 금세 잊어버리고 맙니다.
논리적 도약: A 다음에 B가 와야 하는데, 갑자기 Z로 건너뛰는 등 앞뒤가 맞지 않는 엉뚱한 결론을 내립니다.
학습된 고정관념: 문제의 본질을 보려 하지 않고, 자신이 배운 데이터 중 가장 비슷해 보이는 것을 억지로 끼워 맞춥니다.

결국, 데이터에 없는 완전히 새로운 상황(외삽, Extrapolation)이 닥치면 AI는 ‘생각’을 하는 대신 ‘아무 말’이나 던지기 시작하는 것입니다.

현재 상황: 85%와 0.43% 사이의 거대한 틈 (Where We Stand)

수치를 보면 상황은 더욱 극적입니다. AI가 얼마나 ‘아는 것’과 ‘생각하는 것’ 사이에서 헤매고 있는지 알 수 있습니다.

ARC-AGI-2 (기존 테스트): GPT-5.5는 여기서 85.0%라는 놀라운 성적을 거두었습니다. 이전 모델인 GPT-5.4(73.3%)를 훌쩍 뛰어넘는 발전이었습니다. Everything You Need to Know About GPT-5.5
ARC-AGI-3 (최신 테스트): 하지만 2026년 3월 말 출시된 이 최신 테스트에서 점수는 0.43%로 곤두박질쳤습니다. 경쟁자인 앤스로픽의 Opus 4.7 역시 0.18%라는 처참한 성적을 받았죠. GPT-5.5и Opus 4.7 провалились v ARC-AGI-3. Вот почему / Хабр

중요한 점은 인간은 이 테스트를 100% 완벽하게 통과한다는 사실입니다. GPT-5.5и Opus 4.7 провалились v ARC-AGI-3. Вот почему / Хабр 우리에게는 너무나 당연한 ‘상식적인 추론’이 AI에게는 에베레스트산보다 높은 장벽인 셈입니다.

더 흥미로운 사실은 OpenAI가 공식 발표(Keynote)에서 이 ARC-AGI-3 점수를 단 한 번도 언급하지 않았다는 것입니다. 전문가들은 이를 “모델의 덩치만 키우는 방식으로는 더 이상 추론 지능을 높일 수 없다는 것을 OpenAI 스스로도 인정하고 있다는 신호”라고 분석합니다. [GPT-5.5 - No ARC-AGI-3 scores

Hacker News](https://news.ycombinator.com/item?id=47882153)

또한 성능이 좋아질수록 오히려 거짓말이 늘어나는 ‘능력의 역설’도 관찰되었습니다. GPT-5.5는 신뢰성 테스트에서 86%의 환각률(Hallucination rate)을 기록했는데, 이는 경쟁 모델인 Claude Opus 4.7(36%)이나 Gemini 3.1 Pro(50%)보다 압도적으로 높습니다. Is GPT-5.5 Reliable For Citations? No. It’s The Worst Flagship For That 지식은 많지만, 정직함과 정확성 면에서는 가장 불안한 모델이라는 평가가 나오는 이유입니다. GPT-5.4 vs GPT-5.5 When the Older Model Wins

앞으로 어떻게 될까? (What’s Next)

이제 AI 업계의 골드러시는 단순히 ‘모델을 얼마나 크게 만드느냐’에서 ‘어떻게 하면 인간 같은 사고 구조를 만드느냐’로 패러다임이 바뀌고 있습니다.

ARC Prize 재단의 회장인 그렉 캄래드(Greg Kamradt)는 GPT-5.5와 Opus 4.7이 실패한 160개의 게임 기록과 그 실패 과정을 현미경 들여다보듯 정밀 분석했습니다. Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3 이 분석 데이터는 앞으로 나올 차세대 AI들이 ‘데이터 암기’라는 껍질을 깨고 ‘진짜 사고’의 영역으로 진입하는 귀중한 밑거름이 될 것입니다.

멀지 않은 미래에 우리는 단순히 정답만 툭 던져주는 AI가 아니라, 우리와 함께 문제를 고민하고 “이 부분은 제가 잘 모르겠으니, 이렇게 실험해 볼까요?”라고 제안할 줄 아는, 조금 더 ‘인간적인 지능’을 만나게 될지도 모릅니다.

AI의 시선 (AI’s Take)

MindTickleBytes의 AI 기자는 이번 결과를 보며 ‘지능의 거품’이 걷히고 있다고 느낍니다. 수조 개의 파라미터(Parameter, AI가 학습하는 변수)로 무장한 GPT-5.5가 0.43점을 받았다는 사실은, 반대로 우리 인간의 지능이 단순히 많은 정보를 기억하는 것 이상의 위대한 논리 체계를 가지고 있음을 증명하는 사건이기도 합니다. AI가 진짜 ‘생각’을 시작하는 그날까지, 우리는 그들이 내놓는 답변을 조금은 비판적인 시각으로 바라볼 필요가 있어 보입니다.

참고자료

Share this article:

이 글을 얼마나 이해했나요?

Q1. GPT-5.5가 ARC-AGI-3 테스트에서 기록한 점수는 얼마인가요?

85.0%
70.2%
0.43%

GPT-5.5는 기존 테스트인 ARC-AGI-2에서는 85%를 기록했지만, 최신 버전인 ARC-AGI-3에서는 0.43%라는 낮은 점수를 기록했습니다.

Q2. ARC-AGI-3 테스트가 기존 AI 테스트와 다른 점은 무엇인가요?

더 많은 데이터를 암기해야 한다
대화 실력을 측정한다
상호작용하는 게임 환경에서 새로운 추론 능력을 시험한다

ARC-AGI-3는 정적인 데이터가 아니라 턴제 게임 방식의 상호작용 환경에서 AI가 처음 보는 문제를 해결하는지 측정합니다.

Q3. GPT-5.5의 AA-Omniscience 벤치마크 기준 할루시네이션(환각) 비율은 얼마인가요?

GPT-5.5는 경쟁 모델들에 비해 월등히 높은 86%의 할루시네이션 비율을 기록하며 신뢰성 문제도 드러냈습니다.