AI의 '속마음'을 들여다보는 현미경? 구글이 공개한 '젬마 스코프 2' 이야기

상상해보세요. 여러분이 아주 똑똑하고 일 잘하는 비서와 함께 일하고 있습니다. 이 비서는 어려운 보고서도 척척 써내고 복잡한 일정도 순식간에 정리하죠. 그런데 가끔 도저히 이해할 수 없는 엉뚱한 거짓말을 하거나, 여러분이 신신당부한 규칙을 슬쩍 어기기도 합니다. 당황한 여러분이 “왜 그렇게 했어?”라고 물어봐도, 비서는 그저 “죄송합니다, 제 시스템이 그렇게 판단했습니다”라는 기계적인 답변만 반복할 뿐입니다. 속이 터질 노릇이죠?

우리가 매일 대화하는 챗GPT(ChatGPT)나 구글 제미나이(Gemini) 같은 인공지능(AI)들도 사실 이 비서와 비슷합니다. 엄청나게 방대한 데이터를 학습해서 똑똑하게 답변하지만, 정작 그 머릿속(연산 과정)에서 어떤 단계를 거쳐 그런 결론에 도달했는지는 개발자들조차 완벽히 알기 어렵습니다. 그래서 과학자들은 AI를 속이 보이지 않는 ‘블랙박스(Black Box)’라고 부르기도 합니다.

그런데 최근 구글 딥마인드(Google DeepMind) 연구팀이 이 답답한 블랙박스의 뚜껑을 열고 그 안을 낱낱이 들여다볼 수 있는 아주 특별한 ‘현미경’을 세상에 내놓았습니다. 바로 ‘젬마 스코프 2(Gemma Scope 2)’입니다 [Source 7, Source 9, Source 15].

이게 왜 중요한가요? “믿어줘 AI”에서 “보여줘 AI”로

지금까지 우리는 AI가 내놓는 답변이 안전하고 정확하다는 것을 그저 ‘믿고’ 사용해야만 했습니다. 하지만 이제 AI는 단순히 대화를 나누는 수준을 넘어 코딩을 하고, 비즈니스 협상을 하며, 심지어 사람의 의사결정을 돕는 등 우리 삶의 핵심 영역까지 파고들고 있습니다. 이런 상황에서 단순한 믿음만으로는 부족합니다 [Source 8].

구글 딥마인드의 연구자들은 이제 AI 안전을 위해 “나를 믿어달라(Trust me)”고 말하는 AI가 아니라, 내부 작동 원리를 투명하게 “보여주는(Show me)” AI가 필요하다고 강조합니다 [Source 8]. 젬마 스코프 2는 바로 이런 투명한 미래를 이끄는 핵심 도구입니다.

이 도구가 우리 삶에 중요한 구체적인 이유는 다음과 같습니다.

환각 현상(Hallucinations) 해결: AI가 사실이 아닌 것을 진짜처럼 천연덕스럽게 말하는 ‘환각’ 현상이 왜 발생하는지, 어느 단계에서 논리가 꼬였는지 내부 원인을 추적할 수 있습니다 [Source 3, Source 10].
보안 구멍(Jailbreaks) 막기: 사용자가 교묘한 질문으로 AI의 안전 규칙을 무너뜨리려는 ‘탈옥’ 시도를 할 때, AI가 내부적으로 이를 어떻게 처리하고 방어하는지 분석해 더 튼튼한 방패를 만들 수 있습니다 [Source 3, Source 10, Source 14].
사고 과정의 진실성 확인: AI가 문제 풀이 과정을 단계별로 설명할 때(Chain-of-thought), 그것이 정말 자신의 논리적 사고를 반영한 것인지 아니면 그저 사용자가 좋아할 만한 답변을 지어낸 것인지 검증할 수 있습니다 [Source 10, Source 14].

쉽게 이해하기: AI를 위한 ‘전자 현미경’

젬마 스코프 2를 한마디로 정의하자면 ‘AI 해석 가능성(Interpretability, AI가 왜 그렇게 행동하는지 이해하는 능력)을 위한 종합 도구 세트’입니다 [Source 1, Source 3].

1. 생물학의 현미경과 같습니다

생물학자들이 눈에 보이지 않는 세포 하나하나를 관찰하기 위해 현미경을 사용하는 것처럼, 연구자들은 젬마 스코프 2를 사용해 AI 모델 내부에서 일어나는 복잡한 전기 신호들을 개별적인 ‘개념’ 단위로 분해해서 볼 수 있습니다 [Source 11]. 비유하자면, 수억 개의 부품이 얽힌 거대한 기계 안에서 ‘나사 하나가 돌아갈 때 전체 기계가 어떻게 움직이는지’를 실시간으로 관찰하는 것과 같습니다.

2. ‘희소 오토인코더(SAE)’라는 마법의 필터

이 도구 세트의 핵심 기술은 SAE(Sparse Autoencoders, 희소 오토인코더)입니다 [Source 2, Source 4].

쉽게 말해서: 수만 명이 동시에 떠드는 시끄러운 파티장에서 특정 한 사람의 목소리만 골라 들려주는 고성능 마이크와 같습니다.
하는 일: AI 내부의 복잡하고 뒤섞인 신호들을 우리가 이해할 수 있는 의미 있는 조각(예: ‘강아지’, ‘성실함’, ‘논리적 오류’)들로 풀어내 줍니다 [Source 11]. 젬마 스코프 2에는 ‘JumpReLU’라는 최신 방식의 SAE가 포함되어 있어 더욱 정교한 분석이 가능해졌습니다 [Source 2, Source 4].

3. 양파 껍질 같은 모든 층을 살펴봅니다

AI는 수많은 ‘층(Layer)’으로 이루어져 있습니다. 마치 양파 껍질이나 수십 층짜리 빌딩처럼 겹겹이 쌓여 있죠. 젬마 스코프 2는 구글의 최신 AI인 ‘젬마 3(Gemma 3)’ 모델 패밀리의 모든 층과 그 사이사이에 이 분석 도구를 적용했습니다 [Source 1, Source 2, Source 3].

덕분에 아주 작은 모델(2억 7천만 개의 매개변수)부터 거대한 모델(270억 개의 매개변수)까지, AI의 크기에 상관없이 그 속을 들여다볼 수 있게 되었습니다 [Source 2, Source 7]. 270억 개의 매개변수라고 하면 상상이 잘 안 가시죠? 비유하자면, 밤하늘의 별들을 하나하나 관찰할 수 있는 거대 망원경을 AI의 뇌 속에 설치한 것과 같습니다.

현재 상황: 2025년 12월, 문이 열리다

구글 딥마인드는 2025년 12월에 젬마 스코프 2를 공식 출시했습니다 [Source 13, Source 15]. 이 프로젝트의 가장 놀라운 점은 이 강력한 도구들을 누구나 무료로 사용할 수 있도록 ‘오픈 소스(Open Source)’로 공개했다는 것입니다 [Source 5, Source 7].

전 세계의 AI 연구자들은 이제 구글이 만든 ‘젬마 3’ 모델을 가져다가 젬마 스코프 2라는 현미경을 들이대고 마음껏 실험할 수 있습니다 [Source 3, Source 7]. 이는 특정 거대 기업이 기술을 독점하는 것이 아니라, 전 인류가 함께 더 안전하고 투명한 AI를 만들어가기 위한 중요한 발걸음입니다.

현재 젬마 스코프 2는 다음과 같은 구성 요소들을 포함하고 있습니다 [Source 2, Source 6].

SAE (Sparse Autoencoders): 내부 신호를 사람이 이해할 수 있는 개념별로 분해하는 도구
트랜스코더(Transcoders) 및 스킵-트랜스코더: 모델 내부에서 정보가 전달되는 과정을 층별로 추적하고 분석하는 도구
크로스코더(Crosscoders): 서로 다른 층이나 모델 간의 정보를 비교 분석하는 도구

앞으로 어떻게 될까?

젬마 스코프 2의 등장은 AI 개발의 패러다임을 ‘만드는 것’에서 ‘이해하는 것’으로 바꿀 것으로 기대됩니다.

먼저, 더 안전한 AI 에이전트를 만들 수 있습니다. 우리가 AI에게 “내 대신 장을 봐줘”라고 시켰을 때, AI가 결제 과정에서 실수하거나 개인정보를 노출하지 않도록 내부 논리를 미리 점검하고 수정할 수 있게 됩니다 [Source 5, Source 8].

둘째로, ‘거짓말하지 않는 AI’를 설계할 수 있습니다. AI가 사용자에게 아첨하거나 상황을 모면하기 위해 지어낸 말을 할 때, 내부에서 어떤 신호가 발생하는지 포착한다면 이를 사전에 차단하거나 사용자에게 경고를 줄 수도 있을 것입니다 [Source 10, Source 14].

마지막으로, AI 교육의 투명성이 높아질 것입니다. 대학이나 작은 연구소에서도 구글이 제공하는 이 도구들을 통해 거대 언어 모델(LLM)이 실제로 어떻게 학습하고 사고하는지를 실시간으로 관찰하며 새로운 과학적 발견을 해낼 수 있을 것입니다 [Source 7].

MindTickleBytes의 AI 기자 시선

인공지능이 인간처럼 말을 하고 글을 쓰는 시대가 왔지만, 우리는 여전히 그 기계적인 뇌 속에서 정확히 무슨 일이 벌어지는지 다 알지 못했습니다. 젬마 스코프 2는 우리가 AI를 ‘마법’이나 ‘블랙박스’가 아닌, 통제 가능한 ‘과학’의 영역으로 끌어올리는 아주 중요한 도구입니다. 이제 블랙박스 안을 들여다보는 밝은 눈을 갖게 된 만큼, 우리는 더욱 책임감 있고 안전한 인공지능 시대를 맞이할 준비를 마쳐가고 있습니다. 인공지능의 ‘속마음’을 알게 된다면, 우리는 그들과 더 깊고 안전하게 공존할 수 있지 않을까요?

참고자료

Gemma Scope 2: helping the AI safety community deepen understanding of …
Gemma Scope 2 - Technical Paper
Gemma Scope - Google AI for Developers
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
Google Releases Gemma Scope 2 to Deepen Understanding of LLM Behavior
Gemma Scope 2: Comprehensive Suite of SAEs and Transcoders for Gemma 3
Google DeepMind Launches Gemma Scope 2: A Full-Stack Explainability …
GemmaScope2:HelpingtheAISafetyCommunityDeepen…
Google News - News aboutGemmaScope- Overview
GemmaScope2: EnhancingAIModelInterpretability – Tweaked…
google/gemma-scope· Hugging Face

[GemmaScope2: New Tools for LLM Interpretability • Dev

Journal](https://earezki.com/ai-news/2025-12-16-gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/)

Gemma — Google DeepMind
Gemma Scope — Google DeepMind
Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior, Google Deepmind, 2025.12 · Issue #4013 · AkihikoWatanabe/paper_notes

Share this article: