AI의 '두뇌 구조'가 바뀐다? 구글이 공개한 T5Gemma의 정체

구글의 로고와 인코더-디코더 아키텍처를 형상화한 추상적인 그래픽이 결합된 이미지
AI Summary

구글이 기존의 '읽기 전용' AI 구조를 탈피해, 정보를 더 깊게 이해하고 요약하며 이미지까지 볼 수 있는 새로운 인코더-디코더 AI 모델 'T5Gemma' 시리즈를 선보였습니다.

들어가는 글: AI의 ‘두 가지’ 생각 방식

상상해보세요. 여러분 앞에 아주 어렵고 두꺼운 영문 보고서가 한 장 놓여 있습니다. 이 내용을 한국어로 번역하거나 단 한 문장으로 요약해야 한다면 여러분은 어떻게 행동하실까요?

아마 대부분은 먼저 보고서 전체를 꼼꼼히 ‘읽고 이해’한 다음, 그 핵심 내용을 바탕으로 머릿속에서 정리해 새로운 문장을 ‘출력’할 것입니다. 그런데 흥미롭게도 우리가 지금까지 써온 챗GPT 같은 대부분의 최신 AI들은 이 과정 중 ‘깊이 있는 읽기’보다는 다음에 올 단어를 통계적으로 ‘예측’하는 방식에 더 치중해 왔습니다.

최근 구글은 다시 기본으로 돌아가, 정보를 깊이 있게 이해하고 정리하는 능력을 극대화한 새로운 AI 모델 시리즈, ‘T5Gemma’를 발표했습니다. T5Gemma: A new collection of encoder-decoder Gemma models 왜 구글은 잘 나가던 기존 방식을 두고 ‘고전적인 구조’를 다시 꺼내 들었을까요? 우리 일상에는 어떤 변화가 생길까요? 똑똑한 친구가 설명해주듯 하나씩 풀어보겠습니다.

이게 왜 중요한가요? (Why It Matters)

우리가 사용하는 AI의 성능은 그 ‘설계 도면’인 아키텍처(Architecture, AI의 구조적 설계)에 따라 결정됩니다. 최근 몇 년간은 ‘디코더 전용(Decoder-only)’이라는 구조가 대세였습니다. 문장을 물 흐르듯 이어가는 데 유리해 마치 수다를 잘 떠는 챗봇에 아주 적합했기 때문입니다.

하지만 구글이 이번에 선보인 T5Gemma는 ‘인코더-디코더(Encoder-Decoder, 정보를 입력받아 의미를 파악하는 부분과 이를 바탕으로 결과를 내보내는 부분이 나뉜 구조)’ 방식을 부활시켰습니다. Google Releases T5Gemma, Reigniting the Architecture War!

쉽게 말해서, 기존 AI가 “다음에 무슨 말을 할까?”에 집중했다면, 이 새로운 구조는 “상대가 한 말의 진짜 뜻이 뭘까?”를 먼저 고민하도록 설계되었습니다. 비유하자면, 속사포처럼 말을 내뱉는 달변가보다 상대의 말을 끝까지 듣고 핵심을 짚어주는 신중한 전문가에 가깝습니다. 이 구조는 특히 다음과 같은 작업에서 훨씬 뛰어난 능력을 발휘합니다:

  • 정교한 번역: 문장 전체의 앞뒤 맥락을 완벽히 파악한 뒤 번역합니다.
  • 핵심 요약: 방대한 정보 더미에서 정말 중요한 핵심만 골라내는 능력이 탁월합니다.
  • 추론과 답변: 질문의 숨은 의도를 더 깊게 파악해 논리적인 답을 내놓습니다.

말을 잘하는 AI를 넘어 ‘내용을 제대로 파악하고 정리하는 똑똑한 AI’의 시대가 다시 열린 셈입니다. Unveiling T5Gemma: Google’s New Encoder-Decoder Gemma Models

쉽게 이해하기: ‘읽는 뇌’와 ‘말하는 뇌’의 협동

T5Gemma의 핵심인 ‘인코더-디코더’ 구조를 조금 더 구체적인 비유로 설명해 보겠습니다.

기존의 대세였던 디코더 전용 모델이 “앞선 단어들을 보고 다음에 올 단어를 아주 잘 맞히는 뛰어난 소설가”라면, 이번 T5Gemma는 “전문적인 내용을 완벽히 이해한 뒤 명확한 리포트를 쓰는 숙련된 연구원”과 같습니다. T5Gemma: A new collection of encoder-decoder Gemma models

여기서 인코더는 우리가 준 정보를 샅샅이 훑으며 그 ‘의미’를 숫자로 된 정교한 지도로 만듭니다. 그리고 디코더는 그 지도를 보고 정확한 목적지(정답)를 찾아 새로운 문장을 만듭니다. 두 파트가 역할을 명확히 나누어 맡기 때문에 복잡한 문맥을 이해하는 데 훨씬 효율적입니다. Gemma— Google DeepMind

‘적응’이라는 마법 (Adaptation)

놀라운 점은 구글이 이 모델을 처음부터 완전히 새로 만든 게 아니라는 것입니다. 이미 성능이 검증된 기존의 ‘디코더 전용’ 모델(Gemma 2나 Gemma 3)을 가져와서, ‘적응(Adaptation, 특정 목적에 맞게 모델을 변환하는 것)’이라는 특수한 기술을 통해 인코더-디코더 구조로 변신시켰습니다. T5Gemma: A new collection of encoder-decoder Gemma models

비유하면, 오른손잡이 요리사에게 왼손도 잘 쓰도록 특수 훈련을 시켜서 양손을 자유자재로 쓰는 ‘양손잡이 셰프’로 재탄생시킨 것과 비슷합니다. 이를 위해 구글은 약 2조 개(2T)의 엄청난 양의 데이터 조각(UL2 tokens)을 사용해 학습을 진행하며 이들의 두뇌 구조를 재배치했습니다. T5Gemma 2: Seeing, Reading, and Understanding Longer

현재 상황: 더 작아졌는데 더 똑똑하다?

최신 버전인 T5Gemma 2에 이르면 기술은 한 단계 더 진화합니다. 단순히 글자만 읽는 수준을 넘어 ‘보고, 읽고, 오랫동안 이해하는(Seeing, Reading, and Understanding Longer)’ 전천후 능력을 갖추게 되었습니다. T5Gemma 2: Seeing, Reading, and Understanding Longer

T5Gemma 2의 주요 특징을 정리하면 이렇습니다:

  1. 눈을 뜬 AI (Vision capabilities): 이제 텍스트뿐만 아니라 복잡한 이미지나 도표를 보고 그 내용을 파악해 설명하거나 질문에 답할 수 있습니다. T5Gemma 2: The next generation of encoder-decoder models
  2. 다이어트 성공 (Efficiency): 인코더와 디코더가 서로 중복되는 정보를 공유하는 ‘타이드 임베딩(tied embeddings)’ 기술을 적용했습니다. 덕분에 성능은 오히려 좋아졌는데도 AI의 몸무게(매개변수 수, Parameters)를 10.5%나 줄이는 데 성공했습니다. T5Gemma 2: Google’s Encoder-Decoder Revival… - Banandre
  3. 긴 문장도 끄떡없음 (Long-context): 수백 페이지에 달하는 아주 긴 글이나 문서도 처음부터 끝까지 흐름을 놓치지 않고 이해할 수 있는 능력을 물려받았습니다. Encoder-Decoders and Byte LLMs: T5Gemma 2 and AI2’s New Models

이외에도 정보 처리 속도를 높이는 GQA(Grouped Query Attention)나 단어의 위치 관계를 더 정확히 파악하는 RoPE(Rotary Positional Embeddings) 같은 최신 기술들이 적용되어 처리 효율성을 극대화했습니다. T5Gemma - Hugging Face

앞으로 어떻게 될까? (What’s Next)

T5Gemma 시리즈의 등장은 우리가 일상에서 쓰는 앱들이 더 가볍고 똑똑해질 것임을 예고합니다.

기존의 거대 모델들은 너무 무거워 거대한 데이터 센터를 거쳐야 했고, 이 과정에서 많은 비용과 에너지가 들었습니다. 하지만 T5Gemma 2처럼 콤팩트하면서도(Compact) 강력한 모델들은 우리 손안의 스마트폰이나 노트북 안에서도 원활하게 돌아갈 수 있기 때문입니다. T5Gemma 2: The next generation of encoder-decoder models

특히 여러 언어를 자연스럽게 넘나드는 다국어 지원(Multilingual support) 능력이 대폭 강화되었습니다. 조만간 전 세계 어디서든, 어떤 언어로 된 문서라도 더 정확하게 번역하고 요약해주는 서비스를 누구나 편리하게 누릴 수 있게 될 전망입니다. T5Gemma 2: Seeing, Reading, and Understanding Longer

AI의 시선 (AI’s Take)

MindTickleBytes의 AI 기자가 보기에, T5Gemma는 마치 ‘유행은 돌고 돈다’는 말의 AI 버전 같습니다. 단순히 화려하고 새로운 것만 쫓는 대신, 과거의 훌륭했던 구조를 현대의 압도적인 기술력으로 재해석해 실용성을 극대화한 구글의 전략은 매우 영리합니다.

이것은 단순히 기술적인 변화에 그치지 않습니다. 앞으로 우리가 쓰는 스마트폰 속 AI 비서가 내가 찍은 사진 속 정보를 읽어주고, 복잡한 업무 문서를 단 3초 만에 완벽하게 요약해준다면, 그 배경에는 ‘이해’에 집중하기 시작한 이 ‘인코더-디코더’의 부활이 있을 것입니다. AI가 더 똑똑해지는 것보다, 더 ‘말귀를 잘 알아듣게’ 되는 과정이라고 볼 수 있겠네요.


참고자료

  1. T5Gemma: A new collection of encoder-decoder Gemma models
  2. Gemma— Google DeepMind
  3. T5Gemma: A new collection of encoder-decoder Gemma models (Engineering.fyi)
  4. T5Gemma 2: Seeing, Reading, and Understanding Longer (Arxiv PDF)
  5. T5Gemma · Hugging Face
  6. Google Releases T5Gemma, Reigniting the Architecture War!
  7. T5Gemma Revolutionizes LLM Efficiency: How Encoder-Decoder…
  8. T5Gemma 2: Google’s Encoder-Decoder Revival… - Banandre
  9. T5Gemma 2: The next generation of encoder-decoder models (Google Blog)
  10. T5Gemma 2: Seeing, Reading, and Understanding Longer (Arxiv Abstract)
  11. Unveiling T5Gemma: Google’s New Encoder-Decoder Gemma Models
  12. T5Gemma - Hugging Face (Main Doc)
  13. [How Will T5Gemma Transform Encoder-Decoder Models? Analytics India Mag](https://analyticsindiamag.com/ai-news-updates/google-launches-t5gemma-to-reclaim-encoder-decoder-architecture-benefits/)
  14. Encoder-Decoders and Byte LLMs: T5Gemma 2 and AI2’s New Models

FACT-CHECK SUMMARY

  • Claims checked: 21
  • Claims verified: 21
  • Verdict: PASS
이 글을 얼마나 이해했나요?
Q1. T5Gemma 시리즈는 어떤 기존 모델을 기반으로 만들어졌나요?
  • GPT-4
  • Gemma 2 및 Gemma 3
  • Llama 3
T5Gemma는 Gemma 2 구조를 기반으로 하며, 최신 버전인 T5Gemma 2는 Gemma 3 모델을 변환하여 제작되었습니다.
Q2. T5Gemma 2 모델에서 '매개변수(Parameter)' 수를 10.5% 줄일 수 있었던 비결은 무엇인가요?
  • 데이터 크기를 줄여서
  • 인코더와 디코더가 같은 정보를 공유해서(tied embeddings)
  • 언어 지원을 포기해서
인코더와 디코더 사이에서 '타이드 임베딩(tied embeddings)' 기술을 사용하여 중복되는 정보를 공유함으로써 성능 저하 없이 크기를 줄였습니다.
Q3. T5Gemma 2가 이전 버전과 비교해 갖게 된 새로운 능력은 무엇인가요?
  • 음악 작곡 능력
  • 이미지를 보고 읽는 시각 능력(Vision)
  • 게임 플레이 능력
T5Gemma 2는 시각-언어(vision-language) 능력을 갖추고 있어 이미지를 보고 이해하며 긴 문맥을 파악하는 능력이 강화되었습니다.
AI의 '두뇌 구조'가 바뀐다? 구글이 공개한 T...
0:00