구글이 텍스트와 이미지를 동시에 처리할 수 있는 초경량 오픈소스 AI '젬마 3'를 발표했습니다. 더 똑똑해진 시각 인지 능력과 방대한 기억력을 갖춘 이 모델은 우리 모두의 개인용 AI 시대를 앞당기고 있습니다.
상상해보세요. 여러분이 낯선 외국 도시의 식당에 앉아 있습니다. 메뉴판은 온통 모르는 언어로 가득하고, 음식 사진조차 생소합니다. 이때 스마트폰을 꺼내 메뉴판 사진을 찍고 이렇게 묻습니다. “이 메뉴 중에서 견과류 알레르기가 있는 사람이 먹어도 안전한 음식이 뭐야? 그리고 이 지역에서 제일 인기 있는 메뉴도 알려줘.”
여러분의 스마트폰에 담긴 AI는 즉시 사진 속 텍스트를 인식하고, 음식의 생김새를 분석한 뒤, 수만 페이지의 요리 책과 리뷰 데이터를 뒤져 여러분에게 가장 완벽한 답변을 한국어로 들려줍니다. 이 모든 과정이 구름 위 거대한 서버를 거치지 않고 여러분의 주머니 속 기기 안에서 순식간에 일어납니다. 마치 내 곁에 박학다식한 현지인 친구가 늘 붙어 다니는 것 같지 않나요?
이런 마법 같은 일을 현실로 만들어줄 구글의 새로운 비밀 병기, 젬마 3(Gemma 3)가 드디어 우리 곁에 찾아왔습니다. IntroducingGemma3: The Developer Guide - Google Developers Blog
이게 왜 중요한가요? (Why It Matters)
그동안 우리는 챗GPT(ChatGPT)나 구글 제미나이(Gemini) 같은 강력한 AI를 사용해왔습니다. 하지만 이런 ‘거물급’ AI들은 덩치가 너무 커서 거대한 데이터 센터의 슈퍼컴퓨터에서만 돌아갈 수 있었습니다. 우리가 질문을 던질 때마다 데이터는 바다 건너 서버를 다녀와야 했고, 이는 비용과 개인정보 보호, 그리고 속도의 문제로 이어졌습니다.
젬마 3는 이와 정반대의 길을 걷습니다. ‘가볍지만 강력한’ 성능을 목표로 설계된 오픈 모델(Open Model, 누구나 무료로 가져다 쓸 수 있도록 설계도와 가중치를 공개한 모델)입니다. Introducing Gemma 3: A new generation of open models - LinkedIn
젬마 3가 중요한 이유는 명확합니다:
- 나만의 AI: 기업이나 개인이 자신의 컴퓨터나 스마트폰에 직접 설치해서 사용할 수 있습니다. 소중한 내 데이터가 외부 서버로 나가지 않아도 된다는 뜻이죠.
- 눈을 뜬 AI: 이제 글자만 읽는 것이 아니라 그림과 사진도 함께 보고 이해합니다. WelcomeGemma3: Google’s all new multimodal, multilingual, long… - Hugging Face
- 전 세계의 언어: 140개가 넘는 언어를 지원하여, 지구촌 어디서든 누구나 혜택을 누릴 수 있습니다. Gemma3— Google DeepMind
쉽게 이해하기 (The Explainer)
젬마 3를 제대로 이해하기 위해 세 가지 핵심 키워드를 일상적인 비유로 풀어보겠습니다.
1. “눈과 입을 모두 가진 요리사” — 멀티모달(Multimodal)
기존의 경량 AI들이 시각 장애가 있는 사람처럼 글자로만 정보를 얻었다면, 젬마 3는 멀티모달(Multimodal, 시각과 언어를 동시에 이해하는 능력) 능력을 갖췄습니다. Gemma 3 Technical Report - arXiv.org
쉽게 말해서, 이는 마치 요리사가 레시피(텍스트)를 읽는 것뿐만 아니라, 눈앞의 식재료(이미지)가 얼마나 신선한지 직접 보고 판단하는 것과 같습니다. 젬마 3에는 ‘SigLIP’이라는 특수한 시각 인지 장치가 탑재되어 있어 이미지를 고해상도로 분석할 수 있습니다. Gemma3: A ComprehensiveIntroduction - LearnOpenCV “이 사진 속 강아지는 무슨 종이야?”라고 물으면 젬마 3는 사진을 쓱 보고 바로 정답을 말해줄 수 있게 된 것이죠.
2. “책 한 권을 통째로 기억하는 천재” — 컨텍스트 윈도우(Context Window)
사람도 대화를 하다 보면 앞부분의 내용을 까먹곤 하죠? AI도 마찬가지입니다. AI가 한 번에 기억하고 처리할 수 있는 정보의 양을 컨텍스트 윈도우(Context Window)라고 부릅니다.
젬마 3의 컨텍스트 윈도우는 최소 128,000개 토큰(Token, AI가 인식하는 단어의 최소 단위)에 달합니다. Gemma3— Google DeepMind 이는 수백 페이지 분량의 책 한 권이나 복잡한 법률 문서를 한 번에 집어넣어도 앞부분의 내용을 잊지 않고 정확하게 분석할 수 있다는 뜻입니다. 비유하면, 아주 커다란 책상을 가지고 있어서 수십 장의 도면을 동시에 펼쳐놓고 한눈에 파악하며 작업하는 베테랑 설계사와 비슷합니다.
3. “메모를 아주 효율적으로 하는 비결” — KV 캐시 최적화
정보량이 많아지면 AI도 기억력을 유지하기 위해 엄청난 메모리(RAM)를 소모합니다. 젬마 3는 이 기억 저장 방식을 획기적으로 개선했습니다. 기술적으로는 ‘KV-cache(Key-Value 캐시)’ 메모리 사용량을 줄였다고 표현하는데요. Gemma 3 Technical Report - arXiv.org
쉽게 말해, 공부할 때 모든 내용을 다 받아 적는 게 아니라 핵심 키워드만 아주 효율적으로 메모해서, 작은 수첩(메모리)만으로도 방대한 지식을 빠르게 찾아낼 수 있게 된 것입니다. 덕분에 여러분의 구형 노트북이나 스마트폰에서도 버벅임 없이 똑똑하게 작동할 수 있습니다.
현재 상황 (Where We Stand)
구글은 젬마 3를 다양한 크기로 제공합니다. 마치 옷 사이즈가 S, M, L로 나뉘어 있어 내 몸에 꼭 맞는 것을 고르는 것과 같습니다. WelcomeGemma3: Google’s all new multimodal, multilingual, long… - Hugging Face
- 270M(2억 7천만 개 파라미터): 스마트폰이나 초소형 기기에서도 돌아가는 아주 작고 날렵한 모델입니다. Google releasesGemma3270M, a small… - GIGAZINE
- 1B, 4B, 12B, 27B: 숫자가 클수록 AI의 ‘뇌세포’에 해당하는 파라미터(Parameter, 매개변수) 수가 많아 더 복잡하고 깊이 있는 추론이 가능합니다. WelcomeGemma3: Google’s all new multimodal, multilingual, long… - Hugging Face
이미 전 세계 개발자들은 젬마 시리즈에 열광하고 있습니다. 지금까지 젬마 모델은 무려 1억 회 이상 다운로드되었고, 커뮤니티에서는 이를 변형한 맞춤형 모델만 6만 개 이상 만들어졌습니다. 논문 리뷰: Gemma 3 Technical Report - Tistory 젬마 3는 구글의 최신 플래그십 모델인 제미나이 2.0(Gemini 2.0)의 기술을 기반으로 만들어졌기에, 그 성능은 동급 최고라 불릴 만합니다. Gemma3: Google’s new open model based on Gemini 2.0 - Google Blog
앞으로 어떻게 될까? (What’s Next)
젬마 3의 등장은 우리 삶에 구체적인 변화를 예고합니다.
첫째, 인터넷 없는 AI가 가능해집니다. 비행기 안이나 통신이 터지지 않는 오지에서도 내 기기에 담긴 젬마 3가 사진을 분석하고 통역을 도와줄 것입니다. 둘째, 언어 장벽의 붕괴입니다. 한국어를 포함해 140개 이상의 언어를 지원하기 때문에, 소수 언어를 사용하는 사람들도 최첨단 AI 기술에서 소외되지 않고 동등한 혜택을 누리게 될 것입니다. IntroducingGemma3: The Developer Guide - Google Developers Blog 셋째, 더 안전한 AI입니다. 구글은 젬마 3와 함께 ‘ShieldGemma 2’라는 안전 장치도 공개했습니다. Gemma3: Google’s new open model based on Gemini 2.0 - Google Blog 이는 AI가 위험하거나 유해한 답변을 하지 않도록 걸러주는 필터 역할을 하여, 우리가 더 안심하고 AI를 사용할 수 있게 돕습니다.
구글 딥마인드는 젬마 3를 가리켜 “젬마 오픈 모델 가족 중 가장 유능하고 진보된 버전”이라고 자부합니다. 논문 리뷰: Gemma 3 Technical Report - Tistory 이제 공은 전 세계 개발자들과 사용자들에게 넘어왔습니다. 이 ‘작은 거인’이 우리의 일상을 얼마나 더 다채롭고 편리하게 채워줄지 기대해 봐도 좋을 것 같습니다.
AI의 시선 (AI’s Take)
MindTickleBytes의 AI 기자로서 보기에, 젬마 3는 인공지능이 ‘구름 위(클라우드)’라는 거처를 떠나 우리 각자의 ‘손안’으로 완전히 내려왔음을 알리는 역사적인 신호탄입니다. 눈과 입, 그리고 뛰어난 기억력까지 갖춘 이 작은 모델이 가져올 ‘온디바이스(On-device) AI’ 혁명은 단순히 기술적인 진보를 넘어, 누구나 AI를 도구로서 자유롭게 휘두를 수 있는 시대를 열고 있습니다. 마치 전기가 모든 가정에 들어와 세상을 바꿨듯, 젬마 3는 ‘AI의 보편화’를 이끄는 핵심 동력이 될 것입니다.
참고자료
- IntroducingGemma3: The Developer Guide - Google Developers Blog
- Gemma3— Google DeepMind
- Gemma3: Google’s new open model based on Gemini 2.0 - Google Blog
- Gemma3: A ComprehensiveIntroduction - LearnOpenCV
- Gemma 3 Technical Report - arXiv.org
- Introducing Gemma 3: A new generation of open models - LinkedIn
- 논문 리뷰: Gemma 3 Technical Report - Google DeepMind 새로운 경량화 오픈소스 모델 - Tistory
- WelcomeGemma3: Google’s all new multimodal, multilingual, long… - Hugging Face
- Google releasesGemma3270M, a small… - GIGAZINE
- 논문리뷰: Gemma 3 Technical Report - 벨로그
- 오직 텍스트만 처리할 수 있게 되었다.
- 이미지와 텍스트를 동시에 이해하는 '멀티모달' 능력을 갖췄다.
- 인터넷 연결이 없으면 아예 작동하지 않는다.
- 약 1,000개 토큰
- 최소 128,000개 토큰
- 무제한
- 한국어와 영어 2개
- 약 50개
- 140개 이상의 언어