구글이 스마트폰과 태블릿 등 개인 기기에서 직접 작동하며 텍스트, 이미지, 오디오, 비디오를 동시에 처리하는 초경량 AI 모델 '젬마 3n'을 공개했습니다.
내 폰 안의 AI가 보고 듣고 말한다? 구글의 똑똑한 막내 ‘젬마 3n’ 이야기
상상해보세요. 여러분이 해외 여행 중 낯선 골목에서 길을 잃었습니다. 하필 데이터 로밍까지 뚝 끊긴 상황이죠. 당황스러울 법도 하지만, 여러분은 여유롭게 스마트폰 카메라를 켭니다. AI가 주변 표지판을 실시간으로 읽어 현재 위치를 한국어로 설명해주고, 근처 맛집까지 추천해줍니다.
혹은 시끄러운 카페에서 친구가 보내준 긴 음성 메시지를 확인해야 할 때, 스마트폰이 그 소리를 실시간으로 듣고 핵심 내용을 텍스트로 깔끔하게 요약해 보여준다면 어떨까요?
이 모든 장면은 먼 미래의 공상과학 영화가 아닙니다. 구글이 최근 발표한 새로운 AI 모델, ‘젬마 3n(Gemma 3n)’이 우리 곁으로 오면서 곧 일상이 될 모습입니다. 오늘은 구글이 야심 차게 내놓은 이 작고 똑똑한 AI가 왜 우리에게 중요한지, 그리고 어떤 놀라운 원리로 작동하는지 친절하게 설명해 드릴게요.
이게 왜 우리에게 중요한가요? (Why It Matters)
지금까지 우리가 접해온 챗GPT나 제미나이 같은 유명한 AI들은 대부분 ‘구름 위(클라우드)’에 있는 거대한 컴퓨터 시스템에서 작동했습니다. 즉, 우리가 질문을 던지면 데이터가 인터넷을 타고 멀리 떨어진 거대 데이터센터로 날아가 답을 받아오는 방식이었죠. 하지만 젬마 3n은 그 판도를 완전히 바꿉니다.
-
내 기기에서 직접(온디바이스, On-device) 작동해요: 젬마 3n은 휴대폰, 노트북, 태블릿처럼 우리가 매일 손에 들고 다니는 기기 안에서 직접 실행되도록 설계되었습니다 [Gemma 3n model overview Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n). 비행기 모드에서도, 산꼭대기에서도 인터넷 연결 걱정 없이 AI의 도움을 받을 수 있다는 뜻입니다. - 개인정보가 물 샐 틈 없이 안전해요: 기존 AI는 분석을 위해 내 사진이나 목소리를 외부 서버로 보내야 했습니다. 하지만 젬마 3n은 모든 처리가 내 기기 내부에서 끝납니다. 소중한 내 데이터가 밖으로 나가지 않으니 보안에 민감한 분들도 안심하고 사용할 수 있죠.
- 오감을 가진 만능 재주꾼이에요: 젬마 3n은 단순히 글자만 이해하는 게 아닙니다. 이미지, 오디오, 비디오를 모두 보고 듣고 이해할 수 있는 ‘멀티모달(Multimodal, 여러 형태의 정보를 동시에 처리하는 능력)’ AI입니다 Introducing Gemma 3n: The developer guide. 텍스트만 처리하던 기존의 가벼운 모델들과는 차원이 다른 능력을 갖췄습니다.
쉽게 이해하기: 젬마 3n의 비결 (The Explainer)
젬마 3n을 한마디로 정의하자면 ‘다이어트에 성공한 만능 천재 조수’라고 할 수 있습니다. 이 작은 모델이 어떻게 그 많은 일을 해내는지 비유를 통해 알아볼까요?
1. “AI의 기발한 다이어트” — 매트포머(MatFormer) 구조
거대한 AI 모델은 마치 수십만 권의 책이 가득 찬 국립중앙도서관과 같습니다. 하지만 이 거대한 라이브러리를 내 작은 휴대폰에 다 담을 수는 없겠죠? 구글은 여기서 ‘매트포머(MatFormer, 상황에 따라 모델 크기를 유연하게 조절하는 기술)’라는 특별한 설계 방식을 도입했습니다 Gemma 3n model overview | Google AI for Developers.
비유하자면, 상황에 따라 크기를 자유자재로 조절하는 ‘레고 블록’과 같습니다. 배터리가 부족하거나 간단한 작업을 할 때는 핵심 블록만 사용해 가볍고 빠르게 돌아가고, 더 복잡한 추론이 필요할 때는 블록을 더 붙여서 똑똑해지는 식이죠. 쉽게 말해서, 사양이 높지 않은 보급형 스마트폰에서도 무거운 AI 기능을 부드럽게 사용할 수 있게 된 비결입니다.
2. “보고 듣고 읽는 능력” — 태생부터 만능 (Native Multimodal)
기존의 가벼운 AI들이 주로 ‘글자’ 공부만 한 학생이었다면, 젬마 3n은 태어날 때부터 눈과 귀가 발달한 학생과 같습니다 Introducing Gemma 3n: The developer guide.
- 눈(이미지/비디오): 사진 속 물체가 무엇인지 알아맞히고, 움직이는 영상의 줄거리를 척척 요약합니다.
- 귀(오디오): 사람의 말투나 감정 섞인 목소리, 주변 소음을 듣고 맥락을 파악합니다.
이것을 전문 용어로 ‘네이티브 멀티모달(Native Multimodal)’이라고 부릅니다. 여러 기능을 억지로 이어 붙인 게 아니라, 처음부터 모든 감각을 동시에 사용하도록 훈련받았다는 의미입니다. 마치 ‘맥가이버 칼’처럼 하나의 모델 안에 온갖 도구가 일체형으로 들어있는 셈이죠.
현재 어디까지 왔을까요? (Where We Stand)
| 구글은 2025년 5월에 젬마 3n의 맛보기 버전인 ‘프리뷰’를 처음 공개하며 세상을 놀라게 했습니다 Announcing Gemma 3n preview: powerful, efficient, mobile-first AI. 그리고 연구와 보완을 거쳐 2025년 12월, 드디어 모든 기능을 갖춘 정식 버전을 세상에 내놓았습니다 [Introducing Gemma 3n: The developer guide | BARD AI](https://bardai.ai/2025/12/05/introducing-gemma-3n-the-developer-guide/). |
특히 주목할 점은 구글이 이 AI의 ‘설계도(가중치)’를 누구나 가져다 쓸 수 있도록 공개한 ‘오픈 웨이트(Open Weights)’ 모델이라는 것입니다 Introducing Gemma 3n: The developer guide - Google Developers ….
비유하자면, 구글이 자신들만의 ‘특급 요리 레시피’를 전 세계 요리사들에게 무료로 나눠준 것과 같습니다. 덕분에 수많은 앱 개발자들이 자신들만의 독창적인 AI 서비스를 더 빠르고 저렴하게 만들 수 있게 되었습니다. 또한, 젬마 3n은 한국어를 포함해 무려 140개 이상의 언어를 지원하여 전 세계 어디서든 언어의 장벽 없이 활약할 준비를 마쳤습니다 Introducing Gemma 3: The Developer Guide- Google Developers Blog.
앞으로 우리 삶은 어떻게 변할까요? (What’s Next)
젬마 3n은 앞으로 안드로이드 스마트폰과 크롬 브라우저의 핵심 AI 엔진이 될 ‘제미나이 나노(Gemini Nano)’와 그 기술적 뿌리를 공유합니다 Gemma 3n — Google DeepMind.
조만간 우리가 쓰는 휴대폰의 기본 기능 곳곳에 젬마 3n의 기술이 스며들 것입니다. 예를 들어:
- 사진 갤러리: “지난주 제주도에서 찍은 바다 영상 중 파도 소리가 제일 예쁜 것만 골라줘”라고 말하면 AI가 즉시 찾아줍니다.
- 동영상 편집: 복잡한 작업 없이도 AI가 영상의 분위기를 읽고 어울리는 자막과 음악을 자동으로 입혀줍니다.
- 실시간 통역: 인터넷이 안 되는 비행기 안에서도 외국인 승무원과 자연스럽게 대화를 나눌 수 있습니다.
구글은 이 모델을 위해 삼성이나 퀄컴 같은 세계적인 하드웨어 제조사들과도 긴밀하게 협력하고 있습니다 Gemma 3n — Google DeepMind. 하드웨어와 소프트웨어가 톱니바퀴처럼 완벽하게 맞물려 돌아가니, 우리가 느끼는 속도와 편리함은 상상 그 이상이 될 것입니다.
AI의 시선 (AI’s Take)
MindTickleBytes의 AI 기자 시선: “젬마 3n은 AI가 거대한 데이터센터라는 ‘우주선’을 떠나 우리 주머니 속이라는 ‘지상’으로 완전히 내려왔음을 알리는 역사적인 신호탄입니다. 이제 우리는 ‘AI를 사용할 수 있는 특별한 장소’를 찾는 대신, 언제 어디서나 내 곁을 지키는 든든한 AI 동반자와 함께하는 새로운 일상을 맞이하게 될 것입니다.”
참고자료
- Introducing Gemma 3n: The developer guide - Google Developers
-
[Gemma 3n model overview Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n) - Introducing Gemma 3n: The developer guide - Simon Willison
- Gemma 3n — Google DeepMind
- Announcing Gemma 3n preview: powerful, efficient, mobile-first AI
- Introducing Gemma 3: The Developer Guide - Google Developers Blog
-
[Introducing Gemma 3n: The developer guide BARD AI](https://bardai.ai/2025/12/05/introducing-gemma-3n-the-developer-guide/)
FACT-CHECK SUMMARY
- Claims checked: 16
- Claims verified: 16
- Verdict: PASS
- 텍스트와 이미지
- 오디오와 비디오
- 사람의 감정 상태를 수치로 출력
- 거대 데이터센터에서만 작동한다
- 인터넷 연결 없이 기기 자체에서 작동하는 온디바이스 AI다
- 유료 사용자만 사용할 수 있는 폐쇄형 모델이다
- 10개
- 50개
- 140개