내 주머니 속 AI가 진짜 '눈'을 떴다고? 구글의 야심작 '젬마 3'가 바꾸는 세상

AI Summary

구글 딥마인드가 발표한 젬마 3는 시각 지능과 140개 언어 지원을 갖춘 고성능 오픈 모델로, 스마트폰에서도 돌아갈 만큼 가볍고 강력합니다.

상상해보세요. 여러분이 해외여행 중에 낯선 식당에 들어갔습니다. 메뉴판은 온통 모르는 글자뿐이고, 옆 테이블에서 먹고 있는 음식이 맛있어 보이는데 이름조차 모릅니다. 예전 같으면 번역 앱을 켜서 글자를 일일이 찍거나 손짓 발짓으로 물어봐야 했겠죠. 하지만 이제는 스마트폰을 꺼내 그 음식을 비추기만 하면 됩니다. 그러면 여러분 주머니 속의 AI가 즉시 사진을 보고 “이건 이 지역의 전통 요리인 ‘라따뚜이’입니다. 토마토와 가지가 들어갔고 아주 건강한 맛이죠!”라고 친절하게 설명해줍니다. 그것도 여러분이 가장 편해하는 한국어로 말이죠.

구글 딥마인드(Google DeepMind)가 최근 발표한 새로운 인공지능 모델, ‘젬마 3(Gemma 3)’가 그리는 미래가 바로 이런 모습입니다Gemma 3— Google DeepMind. 젬마 3는 단순히 글자를 읽는 수준을 넘어 드디어 ‘눈’을 가졌고, 전 세계 수많은 언어를 이해하며, 무엇보다 우리 손안의 기기에서 직접 돌아갈 만큼 날렵해졌습니다.

오늘은 이 똑똑한 AI 친구가 왜 특별한지, 그리고 우리의 일상을 어떻게 바꿀지 MindTickleBytes가 아주 쉽게 풀어드립니다.

이게 왜 중요한가요? (Why It Matters)

우리가 흔히 아는 챗GPT(ChatGPT)나 구글 제미나이(Gemini) 같은 AI는 거대한 컴퓨터들이 모여 있는 데이터 센터에서 작동합니다. 쉽게 말해, AI의 ‘뇌’가 구글이나 오픈AI 같은 회사 본사에 있고, 우리는 인터넷이라는 긴 줄을 연결해서 그 뇌를 빌려 쓰는 셈이죠. 그래서 인터넷이 끊기면 바보가 되고, 개인적인 사진이나 문서를 보내기에도 왠지 모를 찝찝함이 남을 때가 있었습니다.

하지만 젬마 3는 다릅니다. 이 모델은 ‘오픈 모델(Open Model)’로 공개되었습니다Introducing Gemma 3: A Powerful and Accessible AI Model Suite.. 비유하자면, 비법 레시피를 전 세계에 무료로 공개한 것과 같습니다. 개발자들은 이 레시피를 가져다가 각자의 주방(기기)에 맞는 요리사(서비스)를 직접 고용할 수 있습니다. 즉, 인터넷 연결 없이도 내 노트북이나 스마트폰에서 나만을 위해 작동하는 ‘독립형 AI’를 만들 수 있다는 뜻입니다.

특히 이번 젬마 3가 중요한 이유는 크게 세 가지입니다:

눈을 가진 AI (멀티모달): 이제 텍스트뿐만 아니라 이미지도 동시에 이해합니다Introducing Gemma 3: The Developer Guide- Google Developers Blog.
전 세계의 언어를 하나로: 한국어를 포함해 140개가 넘는 언어를 지원하여 전 세계 어디서든 소통할 수 있습니다Introducing Gemma 3 - Gemma - Google AI Developers Forum.
내 손안의 슈퍼컴퓨터: 아주 가볍게 설계되어 스마트폰에서도 부드럽게 돌아갑니다Google DeepMindIntroducesGemma3: The Most Capable Model….

쉽게 이해하기 (The Explainer): 젬마 3의 세 가지 마법

1. “글자만 보던 AI가 사진을 보기 시작했어요”

젬마 3의 가장 큰 변화는 멀티모달(Multimodality, 다중 모드) 기능입니다WelcomeGemma3: Google’s all new multimodal, multilingual, long…. 쉽게 말해서, 예전에는 AI에게 “사과가 뭐야?”라고 글로 물어야 했다면, 이제는 사과 사진을 보여주며 “이게 뭐야?”라고 물어도 “이건 맛있는 사과네요!”라고 답할 수 있게 된 것입니다.

비유하면, 기존의 AI가 앞을 보지 못하지만 책은 아주 많이 읽은 ‘눈먼 박사님’이었다면, 젬마 3는 이제 시력까지 갖춘 ‘만능 전문가’가 된 셈입니다. 단순히 사진을 보는 것을 넘어, 사진 속의 복잡한 그래프를 분석하거나 요리 재료 사진을 보고 즉석에서 레시피를 제안하는 등 훨씬 고차원적인 작업이 가능해집니다Introducing Gemma 3 - Gemma - Google AI Developers Forum.

2. “한 번에 아주 긴 이야기를 기억해요”

AI에게 질문을 할 때, 너무 긴 내용을 입력하면 뒷부분을 읽다가 앞부분을 까먹는 경우가 많았습니다. 젬마 3는 이 기억력의 한계를 크게 넓혔습니다. 128,000개의 토큰(128k Tokens)이라는 방대한 정보를 한꺼번에 처리할 수 있게 된 것이죠Gemma 3 Technical Report - arXiv.org.

여기서 ‘토큰(Token)’이란 AI가 언어를 이해하는 최소 단위로, 단어의 조각이라고 생각하시면 편합니다. 128,000토큰은 어느 정도냐고요? 비유하자면, 수백 페이지 분량의 두꺼운 소설책 한 권을 통째로 AI에게 건네주고 “이 책 50페이지에 나온 주인공의 행동이 결말에 어떤 영향을 줬어?”라고 물어도 막힘없이 대답할 수 있는 수준입니다Introducing Gemma 3 - Gemma - Google AI Developers Forum.

3. “기억력은 좋아졌는데, 머릿속은 더 가벼워졌어요”

보통 기억해야 할 양이 많아지면 AI의 뇌(메모리)도 꽉 차버려 기기가 느려지기 마련입니다. 구글은 이를 해결하기 위해 KV-캐시(KV-cache) 메모리 사용량을 줄이는 획기적인 구조를 도입했습니다Gemma 3 Technical Report - arXiv.org.

비유하자면, 책상 위에 모든 자료를 지저분하게 펼쳐놓는 대신, 아주 체계적인 ‘색인 카드’를 만들어 필요한 정보만 쏙쏙 찾아 쓰도록 뇌 구조를 개편한 것입니다. 덕분에 아주 긴 문서를 읽을 때도 컴퓨터나 스마트폰의 메모리를 적게 차지하며, 배터리 소모를 줄이고 쾌적한 속도를 유지할 수 있게 되었습니다PDFGemma 3 Technical Report.

현재 상황 (Where We Stand): 네 가지 사이즈의 맞춤형 AI

젬마 3는 사용자의 목적과 기기 사양에 맞춰 총 네 가지 크기로 제공됩니다. 마치 옷 사이즈(S, M, L, XL)를 고르는 것과 비슷하죠.

1B(10억 개) 모델: 가장 작고 빠릅니다. 스마트폰이나 태블릿에서 가볍게 쓰기에 딱 좋은 ‘초경량’ 사이즈입니다Gemma 3: Google’s new open model based on Gemini 2.0.
4B(40억 개) 모델: 성능과 속도의 균형이 잘 잡혀 있어 일반적인 노트북이나 PC에서 다방면으로 활용하기 좋습니다WelcomeGemma3: Google’s all new multimodal, multilingual, long….

12B(120억 개) 모델: 좀 더 복잡한 추론이나 수학 문제 풀이 등 전문적인 사고가 필요한 작업에 강점을 보입니다[Обход интернет-цензуры сGemma3и Qwen3: настройка…

AiManual](https://ai-manual.ru/article/lokalnyie-llm-protiv-internet-tsenzuryi-kak-nastroit-gemma3-i-qwen3-dlya-obhoda-blokirovok/).

27B(270억 개) 모델: 가장 강력한 성능을 자랑합니다. 전문가 수준의 작업을 수행하며, 오픈 모델 중에서는 최고 수준의 실력을 갖췄습니다Gemma 3: Google’s new open model based on Gemini 2.0.

이 모든 모델은 구글의 가장 강력한 AI인 ‘제미나이 2.0(Gemini 2.0)’과 동일한 기술적 뿌리를 공유하고 있어, 덩치는 작지만 실력은 매우 탄탄합니다Gemma 3: Google’s new open model based on Gemini 2.0. 또한, 구글은 AI가 위험하거나 유해한 답변을 하지 않도록 감시하는 보안 도구인 ‘실드젬마 2(ShieldGemma 2)’도 함께 공개하여 안전성까지 꼼꼼하게 챙겼습니다Introducing Gemma 3: A Powerful and Accessible AI Model Suite..

앞으로 어떻게 될까? (What’s Next)

젬마 3의 등장은 우리가 AI를 사용하는 방식을 근본적으로 바꿀 것입니다. 이제 AI는 구름(클라우드) 너머 어딘가에 있는 거창한 기술이 아니라, 내 주머니 속에서 나를 도와주는 ‘친절하고 똑똑한 조수’가 될 것입니다.

이미 많은 개발자가 젬마 3를 활용해 혁신적인 서비스를 구상하고 있습니다:

인터넷이 안 되는 오지에서도 사진을 찍으면 즉시 번역해주는 번역기
시각 장애인의 스마트폰 카메라가 주변 상황을 실시간으로 설명해주는 길 안내 서비스
개인의 프라이버시가 담긴 일기나 업무 문서를 외부 서버로 보내지 않고 내 기기 안에서만 정리해주는 개인 비서Introducing Gemma 3: The Developer Guide- Google Developers Blog

심지어는 특정 분야에만 특화된 전문가용 AI로 개조하거나, 더 자유로운 답변을 하도록 튜닝하는 시도들도 이어지고 있습니다UncensoredGemma3- Answers Everything Thing and… - YouTube. 구글이 열어젖힌 이 ‘젬마버스(Gemmaverse)’ 안에서, AI는 이제 단순한 도구를 넘어 우리 삶을 더 풍요롭게 만드는 진정한 동반자로 자리 잡게 될 것입니다Gemma 3: Google’s new open model based on Gemini 2.0.

AI의 시선 (AI’s Take)

젬마 3는 거대 AI 기술이 대중화되는 속도를 획기적으로 앞당겼습니다. 예전에는 수조 원의 인프라가 있어야만 가능했던 ‘시각 지능’이 이제는 여러분의 낡은 노트북에서도 돌아갈 수 있게 된 것이죠. 기술이 소수 기업의 전유물이 아니라 모두의 도구가 될 때, 비로소 세상은 더 따뜻하고 창의적인 변화를 맞이합니다. 개인이 자신만의 ‘보는 AI’를 가질 수 있게 된 지금, 앞으로 어떤 놀라운 아이디어들이 우리 일상을 채우게 될지 정말 기대됩니다.