我手機裡的 AI 睜開『眼』了？Google 全新寶藏 Gemma 3 深度解密

AI Summary

Google 發佈了超輕量開源 AI『Gemma 3』，它能同時處理文字與影像。憑藉更聰明的視覺認知能力與龐大的記憶力，這款模型正引領我們加速進入全民個人化 AI 時代。

想像一下，你正坐在異國城市的餐廳裡。菜單上全是看不懂的語言，甚至連食物照片都很陌生。這時，你拿出手機拍下菜單並問道：「這份菜單裡哪些食物是堅果過敏者可以安全食用的？另外，請推薦這地區最受歡迎的菜色。」

你手機裡的 AI 會立即辨識照片中的文字，分析食物外觀，並搜尋數萬頁的食譜與評論數據，最後用中文為你提供完美的解答。這一切過程都不需要經過雲端龐大的伺服器，而是在你口袋裡的裝置中瞬間完成。這感覺就像身邊隨時跟著一位博學多才的當地朋友，不是嗎？

讓這種魔法化為現實的 Google 全新秘密武器——Gemma 3，終於來到了我們身邊。IntroducingGemma3: The Developer Guide - Google Developers Blog

為什麼這很重要？ (Why It Matters)

一直以來，我們都在使用 ChatGPT 或 Google Gemini 這樣強大的 AI。但這些「大重量級」AI 體型太過龐大，只能在大型數據中心的超級電腦上運行。每當我們提出問題，數據都必須遠渡重洋造訪伺服器，這涉及到了成本、隱私保護以及速度等問題。

Gemma 3 走的是截然相反的道路。它是以「輕量但強大」為目標設計的開源模型 (Open Model，公開設計圖與權重，讓任何人都能免費使用的模型)。Introducing Gemma 3: A new generation of open models - LinkedIn

Gemma 3 之所以重要，原因非常明確：

專屬你的 AI：企業或個人可以直接在自己的電腦或手機上安裝使用。這意味著你珍貴的數據不需要傳送到外部伺服器。
睜開眼的 AI：現在它不僅能閱讀文字，還能同時觀看並理解圖片與照片。WelcomeGemma3: Google’s all new multimodal, multilingual, long… - Hugging Face
全世界的語言：支援超過 140 種語言，讓地球村任何角落的人都能受惠。Gemma3— Google DeepMind

輕鬆理解 (The Explainer)

為了深入了解 Gemma 3，我們將三個核心關鍵字用日常生活中的比喻來解釋。

1. 「眼口並用的廚師」—— 多模態 (Multimodal)

如果說以前的輕量級 AI 像是有視覺障礙的人只能透過文字獲取資訊，那麼 Gemma 3 則具備了多模態 (Multimodal，同時理解視覺與語言的能力)。 Gemma 3 Technical Report - arXiv.org

簡單來說，這就像一位廚師不僅能閱讀食譜（文字），還能親眼觀察眼前的食材（影像）是否新鮮並做出判斷。Gemma 3 搭載了名為「SigLIP」的特殊視覺認知裝置，能以高解析度分析影像。如果你問「這張照片裡的狗狗是什麼品種？」，Gemma 3 掃一眼照片就能立刻給出正確答案。Gemma3: A ComprehensiveIntroduction - LearnOpenCV

2. 「能記住整本書的天才」—— 上下文視窗 (Context Window)

人類在對話時有時會忘記前面的內容吧？AI 也是如此。AI 一次能記憶並處理的資訊量被稱為上下文視窗 (Context Window)。

Gemma 3 的上下文視窗至少達到 128,000 個標記 (Token，AI 辨識單位的最小單位)。Gemma3— Google DeepMind 這意味著即使放入一本數百頁的書或複雜的法律文件，它也不會忘記前面的內容，並能進行精確分析。比喻來說，這就像一位經驗豐富的設計師，擁有一張巨大的辦公桌，可以同時展開數十張圖紙，一眼掌握全局並進行作業。

3. 「高效做筆記的秘訣」—— KV 快取優化

當資訊量變多時，AI 為了維持記憶力也會消耗巨大的記憶體 (RAM)。Gemma 3 徹底改進了這種記憶儲存方式。在技術上，這被描述為減少了「KV-cache (Key-Value 快取)」的記憶體使用量。Gemma 3 Technical Report - arXiv.org

簡單地說，就像學習時不是把所有內容都抄下來，而是非常高效地記錄核心關鍵字，因此即使只用小筆記本（記憶體）也能快速檢索龐大的知識。多虧了這項技術，即使在你的舊筆記型電腦或手機上，它也能流暢且聰明地運作。

現況 (Where We Stand)

Google 提供多種尺寸的 Gemma 3。就像衣服尺寸分為 S、M、L，你可以選擇最適合自己的大小。WelcomeGemma3: Google’s all new multimodal, multilingual, long… - Hugging Face

270M (2.7 億個參數)：在手機或超小型裝置上也能運行的極小且靈活的模型。Google releasesGemma3270M, a small… - GIGAZINE
1B, 4B, 12B, 27B：數字越大，相當於 AI「腦細胞」的參數 (Parameter) 數量越多，能進行更複雜且深層的推理。WelcomeGemma3: Google’s all new multimodal, multilingual, long… - Hugging Face

全球開發者已經對 Gemma 系列展現出極大的熱情。截至目前，Gemma 模型的下載次數已突破 1 億次，社群中衍生出的自定義模型也超過 6 萬個。논문 리뷰: Gemma 3 Technical Report - Tistory 由於 Gemma 3 是基於 Google 最新旗艦模型 Gemini 2.0 的技術構建的，其性能堪稱同類產品中的佼佼者。Gemma3: Google’s new open model based on Gemini 2.0 - Google Blog

未來會如何發展？ (What’s Next)

Gemma 3 的出現預示著我們生活中的具體變化。

第一，無網路 AI 成為可能。在飛機上或通訊不佳的偏遠地區，你裝置中的 Gemma 3 也能分析照片並提供翻譯協助。第二，語言障礙的瓦解。由於支援包含繁體中文在內的 140 多種語言，使用少數語言的人們也不會在尖端 AI 技術中被邊緣化，能享有平等的權益。IntroducingGemma3: The Developer Guide - Google Developers Blog 第三，更安全的 AI。Google 在發佈 Gemma 3 的同時也公開了名為「ShieldGemma 2」的安全裝置。Gemma3: Google’s new open model based on Gemini 2.0 - Google Blog 這就像是一個過濾器，防止 AI 給出危險或有害的回答，讓我們能更安心地使用 AI。

Google DeepMind 自豪地稱 Gemma 3 為「Gemma 開源模型家族中最強大、最先進的版本」。논문 리뷰: Gemma 3 Technical Report - Tistory 現在球已經傳到了全球開發者與使用者手中。我們可以期待這位「小巨人」將如何讓我們的日常生活變得更加多彩與便利。

AI 的視角 (AI’s Take)

作為 MindTickleBytes 的 AI 記者，我認為 Gemma 3 是一個歷史性的信號，宣告人工智慧正離開「雲端」住所，完全走入我們每個人的「手掌心」。這款擁有視覺、語言以及卓越記憶力的小型模型所帶來的「裝置端 (On-device) AI」革命，不僅是技術上的進步，更開啟了一個每個人都能自由揮舞 AI 門檻工具的時代。就像電力進入每個家庭並改變世界一樣，Gemma 3 將成為推動「AI 普及化」的核心動力。

參考資料

Share this article:

測試你的理解

Q1. Gemma 3 與前幾代產品相比，最大的不同點之一是什麼？

變得只能處理文字。
具備同時理解影像與文字的『多模態』能力。
如果沒有網路連接就完全無法運作。

Gemma 3 全新引入了『多模態』功能，能夠同時理解並處理影像輸入與文字。

Q2. Gemma 3 一次能記憶並處理的資訊量（上下文視窗）大約是多少？

約 1,000 個標記
至少 128,000 個標記
無限

Gemma 3 支援至少 128k（128,000 個）標記的上下文視窗，可以一次理解非常長的文檔。

Q3. Gemma 3 總共支援多少種語言？

僅限韓文和英文 2 種
約 50 種
140 多種語言

Gemma 3 具備強大的多語言能力，能以全球 140 多種語言進行溝通。