AI 的「大腦結構」要改變了?Google 公開 T5Gemma 的真面目

結合 Google 標誌與象徵編碼器-解碼器架構的抽象圖形影像
AI Summary

Google 擺脫了傳統的「唯讀型」AI 架構,推出了全新的編碼器-解碼器(Encoder-Decoder)AI 模型「T5Gemma」系列,該系列能更深層地理解與摘要資訊,甚至具備視覺能力。

前言:AI 的「兩種」思考方式

請想像一下。您面前放著一份非常深奧且厚重的英文報告。如果您必須將其翻譯成中文或用一句話總結,您會怎麼做?

想必大多數人會先仔細地「閱讀並理解」報告全文,然後根據核心內容在腦海中進行整理,最後再「輸出」新的句子。但有趣的是,我們目前使用的 ChatGPT 等大多數最新 AI,在這個過程中比起「深度閱讀」,其實更傾向於在統計學上「預測」下一個單詞。

最近,Google 重新回歸基本,發表了旨在極大化深度理解與整理資訊能力的全新 AI 模型系列——「T5Gemma」T5Gemma:全新編碼器-解碼器 Gemma 模型系列 為什麼 Google 會放下目前運作良好的現有方式,重新拿出「經典架構」呢?這會為我們的日常生活帶來什麼變化?讓我們像聽聰明朋友講解一樣,一步步揭開謎底。

為什麼這很重要? (Why It Matters)

我們使用的 AI 性能取決於其「設計圖」,即 架構(Architecture,AI 的結構化設計)。過去幾年,「僅解碼器(Decoder-only)」架構一直是主流。因為它在銜接語句方面具有優勢,非常適合擅長聊天的人力聊天機器人。

然而,Google 這次推出的 T5Gemma 復活了 「編碼器-解碼器(Encoder-Decoder,將接收資訊並解析意義的部分,與根據解析結果輸出結果的部分分開的結構)」 方式。Google 發佈 T5Gemma,重燃架構之戰!

簡單來說,如果現有的 AI 專注於「接下來該說什麼?」,那麼這個新架構則被設計為先思考「對方說的話真正的含義是什麼?」。比喻來說,它比起像連珠炮一樣說話的雄辯家,更接近於會聽完對方的每一句話並指出核心內容的謹慎專家。這種架構在以下任務中能發揮更卓越的能力:

  • 精準翻譯:在完美掌握整句的前後文脈絡後進行翻譯。
  • 核心摘要:在龐大的資訊堆中精選出真正重要核心的能力非常出色。
  • 推理與回答:能更深層地掌握問題隱藏的意圖,給出邏輯嚴密的答案。

這意味著,超越僅僅「會說話」的 AI,「能正確掌握內容並整理的聰明 AI」 時代再次開啟了。Gemma — Google DeepMind

輕鬆理解:「閱讀大腦」與「說話大腦」的協作

讓我們用更具體的比喻來解釋 T5Gemma 核心的「編碼器-解碼器」架構。

如果說現有主流的 僅解碼器模型 是「能根據前文單詞極好地預測下一個單詞的出色小說家」,那麼這次的 T5Gemma 就如同「在完美理解專業內容後,能撰寫清晰報告的資深研究員」。T5Gemma:全新編碼器-解碼器 Gemma 模型系列

在這裡,編碼器會詳盡瀏覽我們提供的資訊,將其「意義」轉化為由數字構成的精密地圖。接著,解碼器會根據這張地圖找到正確的目的地(答案),並產生新的句子。由於這兩個部分分工明確,因此在理解複雜語境方面效率更高。Gemma — Google DeepMind

「適應」的魔法 (Adaptation)

令人驚訝的是,Google 並非從零開始全新打造這個模型。而是採用了性能已獲得驗證的現有「僅解碼器」模型(Gemma 2 或 Gemma 3),透過名為 「適應(Adaptation,為了特定目的而轉換模型的技術)」 的特殊技術,將其變身為編碼器-解碼器結構。T5Gemma:全新編碼器-解碼器 Gemma 模型系列

比喻來說,這就像是對慣用右手的廚師進行特殊訓練,使其也能熟練使用左手,重生為能自由運用雙手的「雙手萬能主廚」。為此,Google 使用了約 2 兆(2T) 個龐大的數據碎片(UL2 tokens)進行學習,重新配置了它們的大腦結構。T5Gemma 2:看見、閱讀與更長久的理解

現狀:變得更小,卻更聰明?

發展到最新版本的 T5Gemma 2,技術又進化了一個層次。它超越了單純閱讀文字的水平,具備了 「看見、閱讀與更長久理解(Seeing, Reading, and Understanding Longer)」 的全方位能力。T5Gemma 2:看見、閱讀與更長久的理解

T5Gemma 2 的主要特點整理如下:

  1. 張開雙眼的 AI (Vision capabilities):現在不僅能處理文本,還能看懂複雜的影像或圖表,並掌握內容進行說明或回答問題。T5Gemma 2:下一代編碼器-解碼器模型
  2. 瘦身成功 (Efficiency):應用了編碼器與解碼器互相共享重複資訊的「繫結嵌入(tied embeddings)」技術。得益於此,在性能反而提升的同時,成功將 AI 的體重(參數數量,Parameters)減少了 10.5%T5Gemma 2:Google 的編碼器-解碼器復興… - Banandre
  3. 長篇文章也沒問題 (Long-context):繼承了即便面對長達數百頁的長文或文件,也能從頭到尾不遺漏流程並加以理解的能力。編碼器-解碼器與字節大語言模型:T5Gemma 2 與 AI2 的新模型

此外,還應用了提升資訊處理速度的 GQA (分組查詢注意力),以及能更準確掌握單詞位置關係的 RoPE (旋轉位置嵌入) 等最新技術,極大化了處理效率。T5Gemma - Hugging Face

未來會如何發展? (What’s Next)

T5Gemma 系列的出現,預告了我們日常使用的應用程式將變得更輕量、更聰明。

現有的巨型模型過於沉重,必須經過龐大的數據中心,這在此過程中消耗了大量成本與能源。然而,像 T5Gemma 2 這樣既緊湊(Compact)又強大的模型,即便在我們手上的智慧型手機或筆記型電腦中也能順暢運行。T5Gemma 2:下一代編碼器-解碼器模型

特別是自然橫跨多種語言的 多語言支援(Multilingual support) 能力得到了大幅強化。預計不久之後,全球各地的任何人都能便利地享受到將任何語言的文件進行更精準翻譯與摘要的服務。T5Gemma 2:看見、閱讀與更長久的理解

AI 的觀點 (AI’s Take)

在 MindTickleBytes 的 AI 記者看來,T5Gemma 就像是 AI 版的「流行是輪迴」。Google 並非單純追求華麗的新技術,而是運用現代壓倒性的技術力重新詮釋過去優秀的結構,將實用性發揮到極致,這項策略非常高明。

這不僅僅是技術上的變化。未來,當我們智慧型手機中的 AI 助手能讀懂我拍的照片中的資訊,並在短短 3 秒內完美摘要複雜的工作文件時,其背景正是源於這場開始專注於「理解」的「編碼器-解碼器」復興。與其說 AI 變得更聰明了,不如說這是一個讓 AI 變得更「聽得懂人話」的過程。


參考資料

  1. T5Gemma:全新編碼器-解碼器 Gemma 模型系列
  2. Gemma — Google DeepMind
  3. T5Gemma:全新編碼器-解碼器 Gemma 模型系列 (Engineering.fyi)
  4. T5Gemma 2:看見、閱讀與更長久的理解 (Arxiv PDF)
  5. T5Gemma · Hugging Face
  6. Google 發佈 T5Gemma,重燃架構之戰!
  7. T5Gemma 革命性提升大語言模型效率:編碼器-解碼器如何…
  8. T5Gemma 2:Google 的編碼器-解碼器復興… - Banandre
  9. T5Gemma 2:下一代編碼器-解碼器模型 (Google 部落格)
  10. T5Gemma 2:看見、閱讀與更長久的理解 (Arxiv 摘要)
  11. 揭秘 T5Gemma:Google 全新編碼器-解碼器 Gemma 模型
  12. T5Gemma - Hugging Face (主文件)
  13. [T5Gemma 將如何轉型編碼器-解碼器模型? Analytics India Mag](https://analyticsindiamag.com/ai-news-updates/google-launches-t5gemma-to-reclaim-encoder-decoder-architecture-benefits/)
  14. 編碼器-解碼器與字節大語言模型:T5Gemma 2 與 AI2 的新模型

事實查核摘要

  • 查核聲明數:21
  • 已驗證聲明數:21
  • 結論:通過 (PASS)
測試你的理解
Q1. T5Gemma 系列是基於哪個現有模型開發的?
  • GPT-4
  • Gemma 2 及 Gemma 3
  • Llama 3
T5Gemma 是基於 Gemma 2 架構,而最新版本 T5Gemma 2 則是透過轉換 Gemma 3 模型製作而成。
Q2. T5Gemma 2 模型能減少 10.5% 參數量的秘訣是什麼?
  • 縮小數據規模
  • 編碼器與解碼器共享相同資訊 (tied embeddings)
  • 放棄語言支援
在編碼器與解碼器之間使用「繫結嵌入(tied embeddings)」技術共享重複資訊,從而在不降低性能的情況下縮小了體積。
Q3. T5Gemma 2 與前代版本相比具備了什麼新能力?
  • 音樂創作能力
  • 觀察並閱讀影像的視覺能力 (Vision)
  • 遊戲操作能力
T5Gemma 2 具備視覺語言(vision-language)能力,能看懂影像並強化了掌握長文本上下文的能力。