您知道在電腦中擁有「眼睛」的 AI 嗎？Google 的新禮物「Gemma 3」隆重登場

AI Summary

Google 發布了能理解文本及圖像、並支援 140 多種語言的高性能輕量級 AI 模型「Gemma 3」，加速了每個人都能在自家電腦執行強大 AI 的時代。

請試著想像一下。 您筆記型電腦裡的一個小程式，看到您拍的照片後，親切地建議道：「照片裡的這朵花是鬱金香，一週澆一次水就可以了。」無需網路連接，也無需複雜的註冊程序。只需在您的電腦中，就能擁有一個專為您服務的聰明助手。

這種像科幻電影般的世界比想像中更接近我們了。這要歸功於 Google 最近發布的新型人工智慧 (AI) 模型 —— 「Gemma 3」。今天，我們將以非常簡單的方式，為您解釋這位聰明的朋友究竟是什麼，以及為什麼它是改變我們生活的重要消息。

為什麼這很重要？

目前為止我們使用的 ChatGPT 或 Google Gemini 等強大 AI，大多運行在巨型數據中心的超級電腦上。當我們提出問題時，問題會透過網路傳送到遠在美國某處的伺服器，再由超級電腦計算出的答案傳回給我們。

但 Gemma 系列走的是完全不同的路線。Google 稱其為 「開放模型 (Open Model)」，並向全球開發者無條件公開了其核心設計圖 [Gemma 3 技術報告]。

如果用料理來比喻，這就像是將著名餐廳的秘方食譜向全民公開。多虧於此，開發者可以拿走這份食譜，在自家的廚房（即個人筆電或智慧型手機）中直接製作出優秀的料理（AI 服務）。全球開發者已經下載了先前版本的 Gemma 超過 1 億次，並以此為基礎創造了超過 6 萬種各具特色的變體模型 [論文評論：Gemma 3 技術報告 - Google DeepMind 全新輕量級開源模型]。這次推出的 Gemma 3 更是其中最聰明、才華最出眾的最新版本 [論文評論：Gemma 3 技術報告 - Google DeepMind 全新輕量級開源模型]。

輕鬆理解：Gemma 3 的三大必殺技

究竟發生了什麼變化，讓全球科技界為之震驚？讓我們來看看 Gemma 3 的三項核心能力。

1. 擁有「眼睛」的 AI，多模態 (Multimodal)

以前的小型 AI 主要只能讀寫文字。但 Gemma 3 現在完美具備了 多模態 (Multimodal，同時處理視覺和文本等各種形式資訊的能力) 功能 [Gemma 3 介紹：開發者指南]。現在，Gemma 3 不僅能理解文字，還能直接「看」懂圖像數據 [Gemma 3：全面介紹]。

簡單來說，如果說以前的 AI 是聽廣播劇並為您總結內容的朋友，那麼現在的 Gemma 3 就是能和您一起看電視並逐一解釋每個場景的朋友。Gemma 3 配備了由約 4 億個數字組成的特殊「視覺感測器 (SigLIP vision encoder)」，能準確辨識照片中的物體是什麼，以及處於什麼情況 [Gemma 3：全面介紹]。

2. 吞噬大象般的「記憶力」

AI 一次能記憶並處理多少資訊量被稱為「上下文視窗 (Context Window)」。Gemma 3 的記憶儲存庫高達 128,000 token (Token，單詞碎片的最小單位) 以上，非常寬裕 [Gemma 3 技術報告 - arXiv.org]。

如果您不太清楚這大約是什麼規模？比喻來說，它能一次讀完一整本書的文本，並在龐大的內容中瞬間找到一個微小的細節。例如，如果您向 Gemma 3 展示一本數百頁的複雜家電產品手冊，並詢問「第 35 頁角落寫的注意事項是什麼？」，它能立即給出準確的答案 [論文評論：Gemma 3 技術報告]。

3. 精通 140 種語言的「語言天才」

Gemma 3 能自由地理解並運用全球 140 多種語言 [Gemma 3 介紹：開發者指南]。除了韓文、中文等主流語言外，甚至還涵蓋了我們可能連名字都感到陌生的各種文化圈語言。這是一件神奇的事情，因為它與 Google 最強大的付費 AI「Gemini 2.0」共享相同的技術根源 [Gemma 3：Google 基於 Gemini 2.0 的全新開放模型]。

進展到哪了：完美契合需求的「客製化尺寸」

Google 精心準備了多種尺寸的 Gemma 3，以便使用者根據自己裝置的性能選擇使用。

Gemma 3 270M (超高效模型)： 為極小型智慧家電或簡單助手任務設計的「口袋 AI」 [Google 新聞 - Google 發布 Gemma 3，一款擁有 270… 的新 AI 模型]。
1B, 4B 模型： 在我們常用的普通智慧型手機或平價筆電上也能非常流暢運行的普及尺寸 [歡迎 Gemma 3：Google 全新的多模態、多語言、長…]。
12B, 27B 模型： 供擁有高階電腦的專家或研究人員執行高難度任務時使用的最強性能模型 [歡迎 Gemma 3：Google 全新的多模態、多語言、長…]。

有趣的是，在此之前，「輕量級 AI」市場的絕對霸主是運營 Facebook 的 Meta 所推出的「Llama」系列。但隨著 Gemma 3 的出現，Google 打出了一記重拳，正在動搖市場格局 [Gemma 3 介紹：新一代開放模型]。此外，Google 還同時公開了監控 AI 以防其給出危險答案的安全裝置 「ShieldGemma 2」，細心照料到了安全的開發環境 [Gemma 3：Google 基於 Gemini 2.0 的全新開放模型]。

展望未來：我們的生活將如何改變？

Gemma 3 的普及將為我們的生活帶來實質性的三種變化。

第一，可以實現徹底的隱私保護。 您無需將珍貴的家庭照片或秘密日記傳送到遠方的 Google 伺服器。因為所有的處理都在您的電腦內完成，您可以放心使用 AI，無需擔心個人資訊洩漏。

第二，「專為您設計」的客製化助手將大量湧現。 開發者可以在 Gemma 3 堅實的基礎上，非常輕鬆地製作出「專門研究料理食譜的 AI」、「只精通我們社區房地產行情的 AI」等。正如已經出現了 6 萬個變體模型一樣，未來將有許多超乎想像的神奇服務來到我們身邊。

第三，在沒有網路的地方也能使用 AI。 無論是在飛機上處理公務，還是在收訊不佳的深山中，只要有搭載 Gemma 3 的裝置，隨時都能獲得聰明助手的幫助。

AI 的視角：MindTickleBytes AI 記者的一句話

Gemma 3 的意義遠不止是 Google 推出的新技術。它象徵著強大的「智慧」不再是巨型企業的專利，而是正在成為每個人都能放進口袋隨身攜帶的「普遍工具」。這位具備視覺智慧的小巨人將如何讓我們的日常生活變得更加多彩與便利，這已經讓人感到興奮不已。

參考資料

事實查核摘要

查核聲明數：14
已證實聲明數：14
結論：通過 (PASS)

Share this article:

測試你的理解

Q1. 關於 Gemma 3 最顯著的特徵之一，即能同時處理文本和圖像的能力，稱為什麼？

通用模型
多模態 (Multimodal)
超文本

同時理解和處理文本、圖像等多種形式數據的能力被稱為「多模態」。

Q2. Gemma 3 一次能記憶並處理的資訊量（上下文視窗）至少是多少？

32,000 token
64,000 token
128,000 token

Gemma 3 能處理至少 128,000 token 以上的長上下文，可以一次理解一整本書的資訊量。

Q3. Gemma 3 模型中，最微型且最高效的版本名稱為何？

Gemma 3 270M
Gemma 3 1B
Gemma 3 27B

Gemma 3 270M 是專為特定任務設計的超高效微型模型。