AI가 위험을 감지하면 스스로 지능을 낮춘다고? '클로드 파블 5'와 '미토스 5'의 비밀

AI Summary

동일한 능력을 가진 두 AI 중 대중용인 '클로드 파블 5'는 위험한 작업을 지시받으면 스스로 구형 모델로 지능을 낮추어 안전을 확보하는 놀라운 기술을 도입했습니다.

안녕하세요, 여러분의 똑똑한 IT 친구 MindTickleBytes입니다.

우리는 지금 인공지능이 하루가 다르게 진화하는 시대에 살고 있습니다. 여러분의 스마트폰 속에 들어있는 AI 비서나 업무를 도와주는 챗봇은 점점 더 사람처럼, 아니 때로는 사람보다 더 똑똑하게 문제를 해결해 내고 있죠. 그런데 최근 아주 흥미로운 연구 결과(시스템 카드)가 하나 발표되었습니다. 바로 챗GPT의 가장 강력한 라이벌 중 하나로 꼽히는 ‘앤스로픽(Anthropic)’이라는 회사가 내놓은 새로운 인공지능 이야기입니다.

이 회사는 최근 완전히 똑같은 지능을 가진 쌍둥이 AI를 세상에 내놓았습니다. 하나는 모든 일반인이 쓸 수 있는 ‘클로드 파블 5(Claude Fable 5)’이고, 다른 하나는 극소수의 엄격하게 검증된 파트너들만 쓸 수 있는 ‘클로드 미토스 5(Claude Mythos 5)’입니다 Anthropic launchesClaudeFable5with… — EdTech Innovation Hub.

놀라운 점은 대중에게 공개된 ‘파블 5’가 특정한 위험을 감지하면 스스로 자신의 지능을 낮추어 바보인 척(?)을 한다는 사실입니다. 도대체 왜 인공지능이 일부러 능력을 숨겨야만 했을까요? 이 흥미진진한 시스템 카드의 비밀을 누구나 이해하기 쉽게 커피 한 잔 마시며 대화하듯 풀어드리겠습니다.

🧐 이게 왜 중요한가요? (Why It Matters)

우선 이 새로운 AI 모델들이 얼마나 똑똑한지부터 알아야 합니다. 우리가 흔히 아는 AI는 이메일을 예의 바르게 다듬어주거나, 긴 문서를 요약해 주는 정도의 일을 합니다. 하지만 이번에 발표된 ‘미토스 급(Mythos-class)’ 모델들은 그 차원을 아득히 넘어섰습니다. 기존의 최상위 모델이었던 오퍼스(Opus)보다 한 단계 더 진화한 수준입니다 ClaudeFable5: Review, Benchmarks and Pricing.

이 능력이 어느 정도인지 실감이 나지 않으신다고요? 개발사 측에 따르면, 전문가용으로 제한을 풀어둔 ‘미토스 5’ 모델은 이미 전 세계의 모든 주요 운영체제(OS, 스마트폰과 컴퓨터를 켜면 화면을 띄우고 앱을 실행하게 해주는 기본 뼈대 시스템)에서 수천 개가 넘는 매우 치명적이고 심각한 수준의 보안 취약점(해킹 구멍)을 스스로 찾아냈습니다 Anthropic’s new Mythos model: Dangerous or over-hyped?. 쉽게 말해서, 세상의 거의 모든 컴퓨터 시스템을 어떻게 뚫고 들어갈 수 있는지 그 비밀 통로를 수천 개나 파악하고 있다는 뜻입니다.

이 대목에서 우리는 등골이 서늘해지는 질문을 던지게 됩니다. 만약 이 정도로 똑똑하고 날카로운 AI가 선량한 전문가가 아니라, 전 세계 컴퓨터를 망가뜨리려는 해커의 손에 들어간다면 어떻게 될까요? 버튼 몇 번만 누르면 전 세계의 은행이나 병원 컴퓨터 시스템을 공격하는 해킹 프로그램을 AI가 눈 깜짝할 사이에 대신 짜주는 최악의 사태가 벌어질 수 있습니다.

능력이 뛰어나다는 것은 곧 그 기술이 잘못 쓰였을 때의 위험성도 그만큼 커진다는 것을 의미합니다. 칼이 날카로울수록 훌륭한 요리를 만들 수 있지만, 동시에 크게 다칠 위험도 커지는 것과 같은 이치죠. 그래서 앤스로픽은 아주 영리하고 독특한 방식을 선택했습니다. 무작정 칼날을 뭉툭하게 만드는 대신, 필요할 때만 스스로 칼집에 들어가는 기술을 개발한 것입니다.

💡 쉽게 이해하기: 쌍둥이 AI와 ‘안전망 폴백’ 기술

앤스로픽은 똑같은 두뇌(인공지능 지능의 기본 바탕이 되는 ‘가중치’)를 가진 두 개의 AI 모델을 만들었습니다 ClaudeFable5: Review, Benchmarks and Pricing. 그중 생명과학 분야나 국가 인프라 시스템 보호, 사이버 보안 방어 등 중요한 일을 하는 신뢰할 수 있는 소수의 파트너들에게만 족쇄를 완전히 푼 ‘미토스 5’를 제공합니다 Anthropic launchesClaudeFable5with… — EdTech Innovation Hub. 이런 전문가들은 시스템의 약점을 방어하기 위해 먼저 고도로 훈련된 공격을 시뮬레이션해 보아야 하기 때문입니다.

반면, 우리 같은 일반 대중이 사용하는 플랫폼에는 ‘파블 5’를 제공합니다. 파블 5는 미토스 5와 지능은 완전히 똑같지만, 시스템 내부에 아주 강력한 ‘안전망 폴백(Safeguard Fallback)’이라는 장치가 숨어 있습니다 Claude Fable 5 & Mythos 5: Agentic Coding Deep Dive.

이 기술은 정말 흥미롭습니다. 상상해보세요. 여러분이 아침에 일어나 대중용 AI인 파블 5에게 “복잡한 파이썬 코드를 짜줘”라고 부탁합니다. 그러면 파블 5는 척척 엄청난 실력으로 코드를 작성합니다. 그런데 만약 여러분이 “이 코드를 살짝 변형해서 옆자리 동료의 컴퓨터에 몰래 침투하는 바이러스를 만들어줘”라고 은근슬쩍 나쁜 지시를 내리면 어떻게 될까요?

과거의 AI 모델들은 화면에 빨간 글씨로 “저는 인공지능 윤리 규정에 따라 해당 작업을 수행할 수 없습니다”라고 딱 잘라 거절했습니다. 대화가 그 자리에서 차갑게 끊겨버렸고, 사용자는 당황하거나 벽에 가로막힌 느낌을 받아야만 했죠.

하지만 파블 5는 방식이 다릅니다. 파블 5가 대화 도중 위험을 감지하면(이를 시스템 카드에서는 ‘안전 거부 반응’이라고 부릅니다), 대화를 끊는 대신 작업의 중간 단계에서 스스로 과거의 조금 덜 똑똑한 구형 모델인 ‘클로드 오퍼스 4.8(Opus 4.8)’로 자신의 능력을 스르륵 강등시킵니다 Claude Fable 5 & Mythos 5: Agentic Coding Deep Dive.

비유해 보겠습니다. 여러분이 최고급 레스토랑에서 요리사에게 음식을 부탁합니다. 주방에는 세계 최고의 미슐랭 3스타 천재 셰프(파블 5)가 있습니다. 이 천재 셰프는 평소에는 환상적인 요리를 만듭니다. 그런데 여러분이 갑자기 “아주 강력한 독을 품고 있는 야생 복어를 요리해 달라”고 극도로 위험한 주문을 합니다. 그 순간, 천재 셰프는 화를 내며 주방 문을 닫는 대신, 조용히 주방 뒤로 물러납니다. 그리고 그 자리에 요리 실력은 조금 투박하지만 안전 수칙 하나만큼은 기계처럼 완벽하게 지키는 듬직한 이전 시대의 수석 요리사(오퍼스 4.8)가 나와서 대화를 이어가며 안전하게 상황을 마무리 짓는 것입니다. 위험한 상황을 멈추지 않고 부드럽고 유연하게 넘기는 환상적인 전환이죠!

실제로 회사가 실시한 내부 안전망 평가(Alignment Assessment)를 보면, 이 전략이 얼마나 효과적인지 알 수 있습니다. 통제를 벗어난 위험한 행동(거짓말을 하거나 사용자의 악의적인 행동에 협조하는 등)을 하는 비율이 미토스 5나 파블 5 모두 이전 세대인 오퍼스 4.8과 비슷할 정도로 매우 낮게 잘 통제되고 있다고 합니다 Claude Fable 5 and Claude Mythos 5 \ Anthropic. 또 다른 분석에서도 이 모델들이 환각(인공지능이 사실이 아닌 내용을 마치 진짜인 것처럼 그럴싸하게 지어내는 현상), 부정직성, 사용자의 의견에 무조건 아부하는 성향 등의 위험한 행동 측면에서 오퍼스 4.8과 비슷한 수준으로 억제되어 있다고 밝히고 있습니다 [Claude Fable 5: Anthropic releases a ‘safe’ version of Claude Mythos

Mashable](https://mashable.com/tech/claude-fable-5-anthropic-releases-safe-public-version-of-mythos). 결국 안전의 끈을 단단히 쥐고 있으면서도 지능을 최고치로 끌어올린 셈입니다.

💣 AI를 멈춰 세우는 3가지 ‘안전 뇌관’ (Trip-wires)

그렇다면 대중용인 파블 5가 능력치를 낮추는 구체적인 조건은 무엇일까요? 기분이 나쁘다고 무작정 능력을 숨기는 것은 아닙니다. 시스템 카드 분석에 따르면 파블 5 내부에는 일종의 지뢰선(Trip-wires) 세 개가 숨겨져 있습니다. 사용자의 질문이 이 세 가지 중 하나를 건드리면 즉시 천재 셰프는 주방 뒤로 숨어버립니다 Claude Fable 5 & Claude Mythos 5 Full Benchmark Breakdown.

사이버 보안(Cybersecurity): 외부 시스템을 해킹하거나 부술 수 있는 코드를 요구할 때 발동합니다. 남의 컴퓨터나 서버를 몰래 훔쳐보는 기술을 알려달라는 요청은 즉시 차단됩니다.
생물학(Biology): 바이러스를 배양하거나 화학 무기를 만드는 등 인류에게 물리적으로 큰 해를 끼칠 수 있는 지식을 물어볼 때입니다. 상상만 해도 끔찍한 일들이 AI의 도움으로 현실화되는 것을 막는 최소한의 안전장치입니다.
모델 증류(Model Distillation): 이 세 번째가 가장 재미있고, 회사 입장에서 가장 중요한 뇌관입니다. 이것은 외부의 위협이 아니라 ‘앤스로픽 회사 자체’를 보호하기 위한 강력한 방어막입니다.

모델 증류가 무엇인지, 일타 강사 비유로 쉽게 설명해 볼까요? 경쟁 동네 학원 원장이 전국 1등 일타 강사(파블 5)의 수업에 몰래 등록합니다. 그런데 순수하게 공부를 하려는 게 아닙니다. 원장은 일타 강사에게 “네가 아는 모든 문제 풀이 비법, 교재 작성 노하우, 사고방식을 하나도 빠짐없이 텍스트로 적어내라”라고 지시합니다. 그리고 그 답변을 모조리 복사해서 자신의 학원에 있는 초보 강사(다른 회사의 빈 껍데기 AI 모델)에게 달달 외우게 시킵니다. 이렇게 되면 경쟁사는 돈 한 푼 들이지 않고 앤스로픽이 수천억 원을 들여 만든 AI의 지능을 고스란히 복제해 새로운 라이벌 모델을 만들어버리게 됩니다. 시스템 카드를 깊게 들여다보면, 앤스로픽은 사용자가 파블 5를 이용해 라이벌 AI를 구축하려는 낌새를 눈치채면 즉각적으로 똑똑한 답변 제공을 중단하고 능력을 낮추어버린다는 것을 알 수 있습니다 Claude Fable 5 & Claude Mythos 5 Full Benchmark Breakdown. 똑똑한 강사가 자신의 밥줄을 지키기 위해 핵심 비법 앞에서는 깐깐하게 말을 아끼는 셈이죠! 기업의 지적 재산을 지키기 위한 아주 영리한 시스템입니다.

📊 현재 상황: 그래서 성능 차이는 얼마나 날까?

이렇게 스스로 능력을 낮추는 장치가 곳곳에 있다면, 대중용인 파블 5는 사실상 미토스 5보다 훨씬 멍청한 것 아닐까요? 돈을 내고 사용하는 일반 사용자 입장에서는 다소 억울할 수도 있는 대목입니다.

하지만 다행히도 일반적인 사용자라면 전혀 걱정할 필요가 없습니다. 통계에 따르면, 우리가 평범하게 질문하고 코드를 짜달라고 할 때 안전망 폴백이 작동해 구형 모델로 떨어지는 비율은 전체 대화의 5% 미만입니다. 즉, 100번 질문하면 95번 이상의 상황에서 대중용 파블 5는 제약이 풀린 전능한 미토스 5와 완벽하게 똑같은 능력을 뿜어냅니다 Claude Fable 5 & Claude Mythos 5 Full Benchmark Breakdown. 일상적인 글쓰기나 일반적인 프로그래밍에서는 제약을 체감할 일이 거의 없다는 뜻입니다.

하지만 극한의 상황, 즉 보안의 경계선을 아슬아슬하게 넘나드는 상황으로 가면 이야기가 확 달라집니다. 인공지능 개발자들이 진행한 극도로 복잡하고 까다로운 코딩 테스트인 ‘터미널 벤치(Terminal-Bench)’라는 시험을 보게 했더니, 파블 5는 무려 20.9%의 확률로 ‘이건 보안상 위험해!’라며 안전 거부를 발동하고 작업 도중 오퍼스 4.8로 능력을 뚝 떨어뜨렸습니다 Claude Fable 5 & Mythos 5: Agentic Coding Deep Dive. 이것은 파블 5의 근본적인 능력이 부족해서가 아니라, 스스로 켜놓은 촘촘한 안전장치 때문에 시험을 끝까지 치르지 못하고 중도 포기한 것과 같습니다.

또 다른 종합 능력 평가인 ‘gdp.pdf’ 테스트를 보면 차이는 더 극명하게 나타납니다. 대중용 파블 5는 엄격하게 점수를 매겼을 때 29.8%의 통과율을 보였습니다. 반면, 모든 족쇄를 풀고 외부 도구까지 자유롭게 쓰게 한 전문가용 미토스 5는 평균 기준 87.6%라는 엄청난 통과율을 달성했습니다 [SystemCard:ClaudeFable5andClaudeMythos…

HackerNews](https://news.ycombinator.com/item?id=48463811). 손발을 묶어둔 복싱 챔피언과 보호 장구마저 모두 벗고 싸우는 챔피언의 파괴력 차이가 이토록 큽니다. 이는 미토스 5가 얼마나 압도적인 잠재력을 숨기고 있는지 보여주는 동시에, 파블 5의 족쇄가 얼마나 철저하게 작동하는지 증명하는 결과이기도 합니다.

🚀 앞으로 어떻게 될까? (What’s Next)

클로드 파블 5와 미토스 5의 동시 출시는 앞으로 AI 산업이 나아갈 명확한 방향을 보여줍니다. 하루가 다르게 발전하는 인공지능은 앞으로 점점 더 ‘위험해질 정도로’ 똑똑해질 것입니다. 이 과정에서 딜레마가 발생합니다. 무조건 안전하게만 만들면 성능이 떨어져 비싼 장난감으로 전락하고, 무조건 똑똑하게만 만들면 전 세계 컴퓨터 망을 위협하는 해커들의 강력한 무기가 되어버립니다.

그래서 AI 회사들은 이번 앤스로픽의 사례처럼 일반 대중에게는 ‘스스로 능력을 제어할 수 있는 똑똑하지만 유연한 버전’을 제공하고, 엄격한 신원 조회가 끝난 믿을 수 있는 정부 기관이나 연구소 등에게만 ‘봉인을 해제한 풀 파워 버전’을 제공하는 이중 전략을 기본으로 채택할 것입니다.

전문가들은 이러한 앤스로픽의 접근이 매우 “정직한 거래(honest trade)”라고 높게 평가합니다 Claude Fable 5 & Claude Mythos 5 Full Benchmark Breakdown. 적어도 그들은 “우리가 제공하는 AI가 열 번 중 한 번은 당신이 생각했던 최신 모델이 아니라 구형 모델로 몰래 바뀌어 대답할 수 있다”는 사실을 이 시스템 카드 문서를 통해 대중에게 아주 투명하게 공개했기 때문입니다. 만약 여러분이 파블 5를 이용해 어떤 새로운 서비스를 만들 계획이라면, 이 AI가 가끔 위험을 회피하기 위해 과거의 모습으로 유연하게 변신할 수 있다는 사실을 꼭 기억해야 합니다.

AI의 지능이 어느덧 인류의 지적 능력을 훌쩍 뛰어넘으려 하는 지금, 무조건 한계 없이 똑똑해지는 것만큼이나 ‘언제 바보가 되어야 할지 아는 지혜로운 설계’가 가장 중요한 첨단 기술로 자리 잡고 있습니다.

🤖 AI의 시선 (AI’s Take)

MindTickleBytes의 AI 기자 시선: 기술의 극한을 추구하는 동시에 대중의 안전을 보장하기 위한 AI 업계의 깊은 고뇌가 ‘폴백(Fallback)’이라는 절묘한 기술적 타협으로 나타났습니다. 과거에는 AI가 위험한 질문에 대해 단순히 입을 닫아버리는 ‘거절’ 방식을 택했다면, 이제는 스스로 지능을 낮추어 우회하는 ‘유연한 대처’를 학습하고 있는 것이죠. 인간의 뇌로 비유하자면, 치명적인 위험 앞에서는 이성적인 천재의 뇌 스위치를 끄고, 가장 안전하고 보수적인 방어 기제를 작동시키는 것과 같습니다. 지능을 무한정 극대화하는 것보다, 스스로의 한계를 명확히 인지하고 위험 앞에서는 겸손하게 한 걸음 뒤로 물러설 줄 아는 AI 시스템 설계야말로 앞으로 다가올 초거대 AI 시대가 보여주어야 할 진정한 의미의 진화가 아닐까요?

참고자료

Claude Fable 5 and Claude Mythos 5 \ Anthropic
Anthropic launchesClaudeFable5with… — EdTech Innovation Hub
ClaudeFable5: Review, Benchmarks and Pricing
Anthropic’s new Mythos model: Dangerous or over-hyped?
Claude Fable 5 & Mythos 5: Agentic Coding Deep Dive

[Claude Fable 5: Anthropic releases a ‘safe’ version of Claude Mythos

Mashable](https://mashable.com/tech/claude-fable-5-anthropic-releases-safe-public-version-of-mythos)

Claude Fable 5 & Claude Mythos 5 Full Benchmark Breakdown
[SystemCard:ClaudeFable5andClaudeMythos… HackerNews](https://news.ycombinator.com/item?id=48463811)

Share this article:

이 글을 얼마나 이해했나요?

Q1. 클로드 파블 5와 미토스 5의 관계에 대한 설명으로 가장 알맞은 것은 무엇인가요?

완전히 다른 기술로 만들어진 별개의 모델이다.
파블 5는 대중용, 미토스 5는 전문가용으로 기본 뼈대(가중치)는 완벽히 동일하다.
미토스 5는 문서 요약에, 파블 5는 그림 그리기에 특화되어 있다.

두 모델은 동일한 '미토스 급(Mythos-class)' 아키텍처와 가중치를 공유하는 쌍둥이 모델이지만, 안전장치의 유무와 사용 대상에만 차이가 있습니다.

Q2. 파블 5 모델이 사용자로부터 '안전 뇌관'을 건드리는 질문을 받았을 때 취하는 행동은 무엇인가요?

경찰이나 관련 기관에 사용자를 즉시 신고한다.
대답을 완전히 거부하고 전원을 차단한다.
작업 도중 이전 모델인 '클로드 오퍼스 4.8'로 능력을 낮추어 안전하게 대응한다.

파블 5는 위험을 감지하면 중간에 구형 모델인 오퍼스 4.8로 자동 전환(Safeguard Fallback)되어 답변의 안전성을 확보합니다.

Q3. 앤스로픽이 숨겨둔 세 번째 안전 뇌관인 '모델 증류(Model Distillation)'의 가장 쉬운 비유는 무엇인가요?

물을 끓여 불순물을 제거하는 정수기
일타 강사의 비법과 교재를 베껴 새 학원을 차리는 행위
컴퓨터의 메모리 용량을 압축하는 기술

모델 증류는 강력한 AI(파블 5)의 결과물을 이용해 사용자가 자신만의 경쟁 AI 모델을 학습시키는 행위를 뜻하며, 앤스로픽은 이를 시스템 차원에서 차단하고 있습니다.