내 컴퓨터에 들어온 '눈'을 가진 AI, 구글의 새로운 선물 '젬마(Gemma) 3'를 아시나요?

구글의 젬마 3 로고와 함께 다양한 언어 및 이미지 데이터가 연결되어 있는 현대적인 그래픽 이미지
AI Summary

구글이 텍스트는 물론 이미지까지 이해하고 140개 이상의 언어를 지원하는 고성능 경량 AI 모델 '젬마 3'를 공개하며, 누구나 자신의 컴퓨터에서 강력한 AI를 실행할 수 있는 시대를 앞당겼습니다.

잠시 상상해보세요. 여러분의 노트북에 들어있는 작은 프로그램 하나가 여러분이 찍은 사진을 보고 “이 사진 속의 꽃은 튤립이네요. 물은 일주일에 한 번만 주면 돼요”라고 다정하게 조언해줍니다. 인터넷 연결도, 복잡한 가입 절차도 필요 없습니다. 그저 내 컴퓨터 안에서 오직 나만을 위해 작동하는 똑똑한 비서가 생기는 것이죠.

이런 SF 영화 같은 세상이 생각보다 훨씬 더 가까워졌습니다. 구글이 최근 발표한 새로운 인공지능(AI) 모델, ‘젬마(Gemma) 3’ 덕분입니다. 오늘은 이 똑똑한 친구가 정확히 무엇인지, 왜 우리 삶을 바꿀 중요한 소식인지 아주 쉽게 설명해 드릴게요.

이게 왜 중요한가요?

지금까지 우리가 사용해온 챗GPT나 구글의 제미나이(Gemini) 같은 강력한 AI들은 대부분 거대한 데이터 센터에 있는 슈퍼컴퓨터에서 돌아갑니다. 우리가 질문을 던지면 그 질문이 인터넷을 타고 멀리 미국 어딘가에 있는 서버로 날아갔다가, 슈퍼컴퓨터가 계산한 답변이 다시 우리에게 돌아오는 방식이죠.

하지만 젬마 시리즈는 완전히 다른 길을 갑니다. 구글은 이를 ‘오픈 모델(Open Model)’이라고 부르며, 그 핵심 설계도를 전 세계 개발자들에게 조건 없이 공개했습니다 [출처 제목].

이것을 요리에 비유하자면, 마치 유명 맛집의 비법 레시피를 전 국민에게 공개한 것과 같습니다. 덕분에 개발자들은 이 레시피를 가져와서 우리 집 부엌, 즉 내 노트북이나 스마트폰에서도 훌륭한 요리(AI 서비스)를 직접 만들 수 있게 되었습니다. 이미 전 세계 개발자들은 이전 버전의 젬마를 1억 번 넘게 다운로드했고, 이를 바탕으로 6만 개가 넘는 개성 넘치는 변형 모델들을 탄생시켰습니다 [출처 제목]. 이번에 나온 젬마 3는 그중에서도 가장 똑똑하고 재주가 많은 최신 버전입니다 [출처 제목].

쉽게 이해하기: 젬마 3의 3가지 필살기

도대체 무엇이 달라졌기에 전 세계 테크 업계가 들썩이는 걸까요? 젬마 3의 핵심 능력 세 가지를 살펴봅시다.

1. “눈”이 생긴 AI, 멀티모달(Multimodal)

예전의 작은 AI들은 주로 글자만 읽고 쓸 줄 알았습니다. 하지만 젬마 3는 멀티모달(Multimodal, 시각과 텍스트 등 여러 형태의 정보를 동시에 처리하는 능력) 기능을 완벽하게 갖추게 되었습니다 [출처 제목]. 이제 젬마 3는 글자뿐만 아니라 이미지 데이터도 직접 ‘보고’ 이해할 수 있습니다 [출처 제목].

쉽게 말해서, 예전의 AI가 라디오 드라마를 듣고 내용을 요약해주는 친구였다면, 이제 젬마 3는 텔레비전을 같이 보면서 장면 하나하나를 설명해줄 수 있는 친구가 된 셈입니다. 젬마 3에는 약 4억 개의 숫자로 이루어진 특수한 ‘시각 센서(SigLIP vision encoder)’가 장착되어 있어, 사진 속 물체가 무엇인지, 어떤 상황인지 정확히 인식해냅니다 [출처 제목].

2. 코끼리도 집어삼킬 듯한 ‘기억력’

AI가 한 번에 얼마나 많은 정보를 기억하고 처리할 수 있는지를 ‘컨텍스트 윈도우(Context Window)’라고 부릅니다. 젬마 3는 이 기억의 저장고가 무려 128,000 토큰(Token, 단어 조각의 최소 단위) 이상으로 아주 넉넉합니다 [출처 제목].

이게 어느 정도의 규모인지 감이 잘 안 오신다구요? 비유하자면 책 한 권 분량의 텍스트를 단 한 번에 읽어내고, 그 방대한 내용 중에서 아주 작은 디테일 하나를 순식간에 찾아낼 수 있는 수준입니다. 예를 들어, 여러분이 수백 페이지짜리 복잡한 가전제품 매뉴얼을 젬마 3에게 보여주고 “35페이지 구석에 적혀 있던 주의사항이 뭐였지?”라고 물어보면 즉시 정확한 답을 내놓을 수 있다는 뜻입니다 [출처 제목].

3. 140개 국어를 구사하는 ‘언어 천재’

젬마 3는 전 세계 140개 이상의 언어를 자유자재로 이해하고 구사합니다 [출처 제목]. 한국어는 기본이고, 우리가 이름조차 생소하게 느끼는 다양한 문화권의 언어들까지 아우릅니다. 이는 구글의 가장 강력한 유료 AI인 ‘제미나이 2.0(Gemini 2.0)’과 동일한 기술적 뿌리를 공유하고 있기 때문에 가능한 마법 같은 일입니다 [출처 제목].

어디까지 왔나: 내 용도에 딱 맞는 ‘맞춤형 크기’

구글은 사용자가 가진 기기의 성능에 맞춰 골라 쓸 수 있도록 젬마 3를 여러 가지 크기로 세심하게 준비했습니다.

  • Gemma 3 270M (하이퍼 효율 모델): 아주 작은 스마트 가전이나 간단한 비서 작업을 위해 만들어진 ‘포켓용 AI’입니다 [출처 제목].
  • 1B, 4B 모델: 우리가 흔히 쓰는 일반적인 스마트폰이나 보급형 노트북에서도 아주 매끄럽게 돌아가는 대중적인 크기입니다 [출처 제목].
  • 12B, 27B 모델: 고사양 컴퓨터를 가진 전문가나 연구자들이 고난도 작업을 수행할 때 사용하는 가장 강력한 성능의 모델입니다 [출처 제목].

흥미로운 사실은, 그동안 이 ‘경량 AI’ 시장의 절대 강자는 페이스북을 운영하는 메타(Meta)의 ‘라마(Llama)’ 시리즈였다는 점입니다. 하지만 이번 젬마 3의 등장으로 구글이 강력한 한 방을 날리며 시장의 판도를 뒤흔들고 있습니다 [출처 제목]. 또한 구글은 AI가 위험한 답변을 하지 못하도록 감시하는 보안 장치인 ‘실드젬마 2(ShieldGemma 2)’도 함께 공개하여, 안전한 개발 환경까지 꼼꼼히 챙겼습니다 [출처 제목].

앞으로의 미래: 우리 삶은 어떻게 변할까?

젬마 3의 대중화는 우리 삶에 실질적인 세 가지 변화를 가져올 것입니다.

첫째, 철저한 프라이버시 보호가 가능해집니다. 내 소중한 가족 사진이나 비밀스러운 일기장을 멀리 있는 구글 서버로 보낼 필요가 없습니다. 모든 처리가 내 컴퓨터 안에서만 이루어지기 때문에, 개인정보 유출 걱정 없이 안심하고 AI를 활용할 수 있습니다.

둘째, ‘나만을 위한’ 맞춤형 비서가 쏟아져 나옵니다. 개발자들은 젬마 3라는 튼튼한 기초 위에 ‘요리 레시피만 전문으로 아는 AI’, ‘우리 동네 부동산 시세만 꿰고 있는 AI’ 등을 아주 쉽게 만들 수 있습니다. 이미 6만 개의 변형 모델이 나왔던 것처럼, 앞으로는 상상도 못 했던 신기한 서비스들이 우리 곁을 찾아올 것입니다.

셋째, 인터넷이 없는 곳에서도 AI를 씁니다. 비행기 안에서 업무를 보거나, 전파가 잘 터지지 않는 깊은 산속에서도 젬마 3가 탑재된 기기만 있다면 언제든 똑똑한 조력자의 도움을 받을 수 있습니다.

AI의 시선: MindTickleBytes AI 기자의 한마디

젬마 3는 단순히 구글이 내놓은 새로운 기술 그 이상의 의미를 가집니다. 이는 강력한 ‘지능’이 더 이상 거대 기업의 전유물이 아니라, 누구나 자신의 주머니 속에 넣고 다닐 수 있는 ‘보편적인 도구’가 되고 있음을 상징합니다. 시각 지능까지 갖춘 이 작은 거인이 우리의 일상을 얼마나 더 다채롭고 편리하게 만들어줄지, 벌써부터 가슴이 설렙니다.

참고자료

  1. Introducing Gemma 3: The Developer Guide - Google Developers Blog
  2. Gemma 3: Google’s new open model based on Gemini 2.0
  3. Google News - Google releases Gemma 3, a new AI model with 270…
  4. Gemma — Google DeepMind
  5. Gemma 3: A Comprehensive Introduction
  6. Gemma 3 Technical Report - arXiv.org
  7. [논문리뷰] Gemma 3 Technical Report - 벨로그
  8. Introducing Gemma 3: A new generation of open models (Gemma 3 소개: 차세대 …
  9. Gemma 3 Technical Report - cis.lmu.de
  10. [논문 리뷰] Gemma 3 Technical Report - Google DeepMind 새로운 경량화 오픈소스 모델
  11. Welcome Gemma 3: Google’s all new multimodal, multilingual, long…
  12. Introducing Gemma 3: A Powerful and Accessible AI Model Suite.

FACT-CHECK SUMMARY

  • Claims checked: 14
  • Claims verified: 14
  • Verdict: PASS
이 글을 얼마나 이해했나요?
Q1. 젬마 3의 가장 큰 특징 중 하나로, 텍스트뿐만 아니라 이미지까지 처리할 수 있는 능력을 무엇이라고 부르나요?
  • 유니버설 모델
  • 멀티모달(Multimodal)
  • 하이퍼 텍스트
텍스트와 이미지 등 여러 형태의 데이터를 동시에 이해하고 처리하는 능력을 '멀티모달'이라고 부릅니다.
Q2. 젬마 3가 한 번에 기억하고 처리할 수 있는 정보의 양(컨텍스트 윈도우)은 최소 얼마인가요?
  • 32,000 토큰
  • 64,000 토큰
  • 128,000 토큰
젬마 3는 최소 128,000 토큰 이상의 긴 컨텍스트를 처리할 수 있어, 책 한 권 분량의 정보를 한 번에 이해할 수 있습니다.
Q3. 젬마 3 모델 중 가장 작고 효율적인 버전의 이름은 무엇인가요?
  • Gemma 3 270M
  • Gemma 3 1B
  • Gemma 3 27B
Gemma 3 270M은 특정 작업을 위해 아주 작게 만들어진 하이퍼 효율적 모델입니다.
내 컴퓨터에 들어온 '눈'을 가진 AI, 구글의 ...
0:00