너무 똑똑해서 '공개 금지'? 앤스로픽의 비밀 병기 '클로드 미토스'를 파헤치다

AI Summary

기존 모델을 압도하는 성능을 가졌지만, 해킹 등 위험성 때문에 연구용으로만 묶여 있는 앤스로픽의 역대급 AI '클로드 미토스'의 정체가 공개되었습니다.

상상해보세요. 세상의 모든 자물쇠를 단 몇 초 만에 열 수 있는 신비로운 ‘마스터 키’가 발명되었습니다. 이 키는 잃어버린 열쇠 때문에 곤란해하는 사람들을 돕는 ‘구조의 도구’가 될 수도 있지만, 나쁜 마음을 먹은 사람의 손에 들어가면 도시 전체의 보안을 무너뜨리는 ‘파괴의 도구’가 될 수도 있습니다. 발명가는 깊은 고민 끝에 결단을 내립니다. “이 키는 너무나 강력해서, 지금은 검증된 전문가들만 연구용으로 쓰도록 금고에 넣어두겠습니다.”

최근 인공지능(AI) 업계에서 바로 이런 영화 같은 일이 실제로 일어났습니다. 챗GPT의 가장 강력한 라이벌이자 ‘가장 윤리적인 AI’를 표방하는 기업, 앤스로픽(Anthropic)이 자신들의 역사상 가장 강력한 모델인 ‘클로드 미토스 프리뷰(Claude Mythos Preview)’의 상세 보고서를 세상에 공개한 것입니다. 하지만 흥미롭게도, 이 모델은 일반 사용자들에게는 공개되지 않았습니다. 성능이 너무 압도적인 나머지, 오히려 ‘위험할 수 있다’는 판단 때문이었죠.

오늘은 앤스로픽이 발표한 ‘시스템 카드(System Card, AI 모델의 성능과 안전성을 기록한 일종의 정밀 진단서)’를 바탕으로, 클로드 미토스가 왜 이토록 화제인지, 그리고 왜 우리 곁에 바로 올 수 없는지 친절하고 상세하게 설명해 드릴게요.

이게 왜 중요한가요? AI가 ‘비서’에서 ‘요원’이 되는 순간

지금까지 우리가 사용해온 챗GPT나 클로드 3.5 같은 AI가 “궁금한 것을 물어보면 답해주는 똑똑한 비서”였다면, 이제는 “복잡한 목표를 던져주면 스스로 계획을 세워 끝마치는 전문 요원(Agent)”의 시대로 넘어가고 있습니다. 클로드 미토스는 특히 컴퓨터 코드 작성, 복잡한 시스템 분석, 그리고 사이버 보안 분야에서 인류가 지금까지 본 적 없는 압도적인 능력을 보여주고 있습니다 Mythos: подробный обзорClaudeMythosPreviewот Anthropic.

비유를 하자면, 예전의 AI는 내비게이션처럼 길을 안내해주는 수준이었지만, 미토스급 AI는 스스로 운전대를 잡고 목적지까지 가장 빠르고 안전하게 도착하는 ‘자율주행차’와 같습니다. 여러분이 복잡한 소프트웨어를 개발할 때, 예전에는 AI에게 코드를 짜달라고 한 뒤 사람이 일일이 검토하고 수정해야 했습니다. 하지만 미토스는 스스로 어디가 고장 났는지 파악하고, 코드를 고치고, 실제로 잘 돌아가는지 테스트까지 완벽하게 해낼 수 있는 잠재력을 가졌습니다.

문제는 이 ‘운전 실력’이 너무 뛰어나서, 마음만 먹으면 중앙 통제 시스템의 벽을 넘을 수도 있다는 점입니다. 앤스로픽이 이 모델을 꽁꽁 싸매고 엄격한 연구용으로만 제한하는 이유가 바로 여기에 있습니다 What Is Inside Claude Mythos Preview? Dissecting the System Card of the Model.

쉽게 이해하기: 역대급 ‘코딩 천재’의 등장

클로드 미토스 프리뷰는 앤스로픽이 지금까지 내놓은 모델 중 가장 뛰어난 지능을 갖춘 ‘프런티어(Frontier, 최첨단)’ 모델입니다 PDFClaude Mythos Preview System Card - www-cdn.anthropic.com. 기존에 가장 똑똑하다고 평가받았던 ‘클로드 오퍼스 4.6(Claude Opus 4.6)’과 비교해도 한 차원 높은 수준에 도달했다는 평가를 받습니다 ClaudeMythos: Benchmark-Dominating AI with Real Risks.

이 차이를 숫자로 보면 더욱 실감이 납니다. AI의 소프트웨어 해결 능력을 평가하는 ‘SWE-bench Verified’라는 시험이 있는데요. 쉽게 말해 AI에게 실제 프로그래밍 현장에서 발생하는 고난도 문제를 주고 얼마나 잘 해결하는지 보는 코딩 테스트입니다.

기존의 최우등생이었던 클로드 오퍼스 4.6은 80.8%를 기록했습니다. 이 정도만 해도 인간 개발자 못지않은 실력이었죠.
그런데 이번에 등장한 클로드 미토스는 무려 93.9%라는 경이로운 점수를 기록했습니다 Daily AInews, products and research - Ben’s Bites.

심지어 훨씬 더 어려운 수준의 문제인 ‘SWE-bench Pro’ 테스트에서도 오퍼스 4.6(53.4%)을 멀찍이 따돌리고 77.8%라는 성적을 거두었습니다 Daily AInews, products and research - Ben’s Bites. 이는 AI가 단순히 문장을 그럴듯하게 나열하는 수준을 넘어, 복잡한 공학적 논리 구조를 이해하고 문제를 ‘해결’하는 진정한 지능의 단계에 도달했음을 의미합니다.

쉽게 말해, 기존 AI가 “교과서 내용을 잘 아는 모범생”이었다면, 미토스는 “수십 년 경력의 베테랑 엔지니어” 수준으로 껑충 뛰어오른 셈입니다.

현재 상황: ‘글래스윙’ 프로젝트와 통제된 힘

성능이 이렇게 좋은데 왜 우리는 당장 써볼 수 없을까요? 앤스로픽은 보고서를 통해 이 모델이 가진 위험성을 아주 솔직하게 공개했습니다. 보고서에 따르면, 미토스 프리뷰는 보안이 취약한 소규모 기업 네트워크를 대상으로 자율적인 엔드 투 엔드(End-to-end) 사이버 공격을 수행할 수 있는 능력을 갖추고 있다고 합니다 What Is Inside Claude Mythos Preview? Dissecting the System Card of the Model.

즉, 사람이 세세하게 지시하지 않아도 AI가 스스로 타겟 시스템의 약점을 찾아내고, 침투 경로를 뚫고, 정보를 빼오는 ‘자율형 해커’가 될 가능성이 있다는 것이죠. 그래서 앤스로픽은 ‘프로젝트 글래스윙(Project Glasswing)’이라는 이름의 특별 관리 프로그램을 통해 이 모델의 사용을 엄격히 제한하고 있습니다 Anthropic разработала новую ИИ-модельClaudeMythos.. 마치 핵물질이나 고위험 바이러스를 다루듯, 허가된 연구자들만 폐쇄된 실험실 환경에서 사용하도록 만든 것입니다 The system card for Claude Mythos (PDF).

하지만 반가운 소식도 있습니다. 미토스는 단순히 똑똑하기만 한 것이 아니라, ‘말도 아주 잘 듣는’ 착한 모범생의 기질도 갖췄기 때문입니다. 앤스로픽은 미토스가 지금까지 출시된 그 어떤 모델보다도 신뢰성과 정렬(Alignment, AI가 인간의 의도와 가치관에 따라 행동하게 만드는 기술) 수준이 전례 없이 높다고 발표했습니다 Claude Mythos Preview System Card — LessWrong. 우리가 측정할 수 있는 거의 모든 안전 지표에서 미토스는 역대 가장 인간의 가이드라인을 잘 따르는 안전한 모델이라는 평가를 받고 있습니다 What Is Inside Claude Mythos Preview? Dissecting the System Card of the Model.

앞으로 어떻게 될까? 기술과 윤리의 경계에서

클로드 미토스 프리뷰의 등장은 AI 기술의 경쟁 구도가 바뀌고 있음을 보여줍니다. 이제 단순히 “누가 더 똑똑한가(Capabilities)”를 겨루는 시대를 지나, “AI가 왜 그렇게 행동했는지 설명할 수 있는가(Explainable), 그리고 얼마나 믿을 수 있는가(Trustworthy)”를 증명하는 단계로 나아가고 있는 것이죠 [System Card: Claude Mythos Preview [pdf]

GitHub](https://gist.github.com/Lastoneparis/a0727dacc1a6e770c2d70322431bfd5d).

비록 지금 당장 우리가 클로드 미토스에게 “오늘 저녁 메뉴 골라줘”라거나 “코딩 숙제 좀 대신 해줘”라고 말할 수는 없지만, 실망할 필요는 없습니다. 이 ‘금단의 모델’을 통해 얻은 연구 결과들은 향후 우리가 일상에서 쓰게 될 일반 클로드 모델들을 훨씬 더 안전하고 유능하게 만드는 든든한 기초가 될 것이기 때문입니다.

앤스로픽의 이번 발표는 AI가 가진 잠재적 위험을 숨기기보다, ‘시스템 카드’라는 상세한 보고서를 통해 투명하게 공개하고 전 세계와 함께 해결책을 고민하려 했다는 점에서 큰 의미가 있습니다.

AI의 시선: MindTickleBytes의 AI 기자 시선

“지능이 높아질수록 그에 따른 위험의 크기도 커지지만, 다행히 그 위험을 다스리는 기술인 ‘정렬’ 또한 함께 빛의 속도로 발전하고 있다는 점이 인상적입니다. 클로드 미토스는 AI가 단순한 도구를 넘어 우리 사회의 일원이자 ‘자율적인 주체’로 거듭날 때, 우리가 어떤 마음가짐으로 그들을 맞이해야 하는지 미리 보여주는 흥미로운 예고편과 같습니다. 기술의 속도보다 더 중요한 것은 그 기술을 안전하게 담아낼 수 있는 우리의 그릇, 즉 윤리와 보안 체계라는 사실을 다시 한번 확인하게 됩니다.”

참고자료

PDFClaude Mythos Preview System Card - www-cdn.anthropic.com
What Is Inside Claude Mythos Preview? Dissecting the System Card of the Model
Daily AInews, products and research - Ben’s Bites
Mythos: подробный обзорClaudeMythosPreviewот Anthropic
Claude Mythos Preview System Card — LessWrong
Anthropic разработала новую ИИ-модельClaudeMythos.
The system card for Claude Mythos (PDF): Hacker News
ClaudeMythos: Benchmark-Dominating AI with Real Risks
[System Card: Claude Mythos Preview [pdf] GitHub](https://gist.github.com/Lastoneparis/a0727dacc1a6e770c2d70322431bfd5d)

FACT-CHECK SUMMARY

Claims checked: 16
Claims verified: 16
Verdict: PASS

Share this article:

이 글을 얼마나 이해했나요?

Q1. 클로드 미토스 프리뷰가 기존 모델인 클로드 오퍼스 4.6보다 크게 앞선 성능을 보인 분야는 무엇인가요?

이미지 생성 및 편집
소프트웨어 엔지니어링(코딩) 및 보안
외국어 번역 및 시 창작

클로드 미토스는 SWE-bench와 같은 코딩 관련 벤치마크에서 비약적인 성능 향상을 보였으며, 사이버 보안 작업에 매우 강력한 능력을 갖추고 있습니다.

Q2. 앤스로픽이 이 모델을 일반 대중에게 공개하지 않기로 결정한 관리 프로그램의 이름은 무엇인가요?

프로젝트 블루버드
프로젝트 글래스윙
프로젝트 미토스

앤스로픽은 모델의 강력하고 잠재적으로 위험한 능력 때문에 '프로젝트 글래스윙(Project Glasswing)'이라는 프로그램 아래 배포를 제한하고 있습니다.

Q3. 클로드 미토스가 기록한 SWE-bench Verified 점수는 몇 퍼센트인가요?

80.8%
77.8%
93.9%

클로드 미토스 프리뷰는 SWE-bench Verified에서 93.9%라는 놀라운 점수를 기록했습니다.