Google 發布了可直接在智慧型手機與筆記型電腦上運行的強大多模態 AI「Gemma 3n」,開啟了無需雲端連接即可理解影片與聲音的裝置端 AI(On-device AI)新時代。
想像一下,您正帶著一支開啟飛行模式的智慧型手機在異國他鄉旅行。儘管餐廳菜單上全是不認識的外語,讓人感到困惑,但您毫不猶豫地拍下照片。隨後,即便完全沒有網路連接,AI 也能立即將菜單翻譯成繁體中文,並親切地解釋食材的由來。它甚至能看著您在深山裡拍攝的一段短片,溫柔地告訴您:「右邊看到的那棵樹是雪嶽山常見的朱木。」
這樣的景象現在已不再是電影中的故事。Google 最近公開的新型人工智慧模型 「Gemma 3n」,很快就會在我們口袋裡的智慧型手機中,將這些場景變為現實。宣佈 Gemma 3n 預覽:強大、高效、行動優先的 AI
為什麼這對我們很重要?
過去我們使用的 ChatGPT 或 Gemini 等聰明的 AI,實際上需要巨大的「基地台」。當我們提出問題時,內容會傳送到地球另一端 Google 或 OpenAI 的大型電腦(伺服器),然後在那裡生成答案再傳送回來。
| 但 Gemma 3n 完全不同。這款模型從一開始就是為了在我們的手機、筆記型電腦和平板電腦中直接思考與回答而設計的 「行動優先(Mobile-first)」 AI。[Gemma 3n 模型概覽 | Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n) |
簡單來說,這等於是將一整座名為 AI 的巨大圖書館塞進了您的口袋。這為何能讓我們的生活變得更好?以下列舉三個重點:
- 徹底的隱私保護:您拍攝的照片或與家人進行的對話不會被傳送到外部伺服器。所有處理僅在您的裝置內完成,無需擔心駭客攻擊或資料外洩。
- 閃電般的速度:不需要傳輸網路訊號的時間。按下按鈕後,AI 會立即做出反應。當然,也不用再擔心數據資費。
- 隨時隨地自由使用:無論是在飛機上、收不到訊號的地下停車場,還是國外旅遊景點的中心,都能獲得 AI 的幫助。
著名 AI 專家賽門·威利森(Simon Willison)對此次發布給予高度評價,稱其為「Google 公開的一個非常重要的模型,任何人都可以自由查看內部結構並加以利用」。介紹 Gemma 3n:開發者指南 - simonwillison.net
易於理解:Gemma 3n 的三項特殊才華
Gemma 3n 不僅僅是一個只會讀書的書呆子。這款模型的關鍵字是 「多模態(Multimodal)」。這意味著它能同時處理多種形式(模態)的資訊。介紹 Gemma 3n:開發者指南 - simonwillison.net
1. 擁有眼睛和耳朵的 AI
Gemma 3n 不僅能理解文字,還能同時理解圖片(圖像)、聲音(音訊)以及影片。打個比方,如果以前的 AI 是只會讀書的學者,那麼 Gemma 3n 就像是能用眼睛看、用耳朵聽,並與我們對話的「現場導遊」。如果您給它看一段小狗的影片並詢問「牠現在心情看起來如何?」,它能綜合分析影片中尾巴的動作和吠叫聲,來分析小狗的情緒。介紹 Gemma 3n:開發者指南 - AI SCKOOL
2. 根據情況調節力量的「MatFormer」
智慧型手機的性能比電腦低,電池也消耗得快。為了補救這個問題,Google 導入了名為 MatFormer 的靈巧設計。Gemma 3n 模型概覽 | Google AI for Developers
| 如果將 AI 比作汽車,普通 AI 是始終全力奔跑的超級跑車,而 Gemma 3n 則像是配備了根據情況調整輸出的 「可變引擎」 的汽車。在進行複雜推理時會發揮最大力量,而在整理簡單筆記時則會節省能源以減少電池消耗。多虧了這項技術,我們可以使用 AI 很長時間,而不必擔心手機發燙。[Gemma 3n 模型概覽 | Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n) |
3. 常用的工具就在手邊,「PLE 快取」
Gemma 3n 中還隱藏了名為 逐層嵌入(Per-Layer Embedding, PLE) 的高級技術。Gemma 3n 模型概覽 | Google AI for Developers
這就像頂級廚師在料理時,會把常用的鹽和胡椒放在料理台旁(快取),而不是櫥櫃深處。AI 在處理資訊時,會將最常用的核心數據預先配置在手邊,這是它只需較少計算就能給出更快、更聰明答案的秘訣。介紹 Gemma 3n:開發者指南 - AI SCKOOL
現狀:它距離我們的日常生活有多近?
Gemma 3n 是 Google 迄今為止累積的視覺智慧(PaliGemma)技術與精確學習經驗的結晶。Gemma 說明:Gemma 3 的新功能 - Google Developers Blog
特別是 Google 使用了被稱為「蒸餾(Distillation)」的技術。這就像是將老練師傅知識的精華提取出來,傳授給弟子(小模型)的過程。因此,雖然體積變小了,但在解答數學問題、編寫程式碼或執行複雜指令方面的能力,完全不遜色於一般的大型模型。Gemma 3 介紹:開發者指南 - Google Developers Blog
最令人振奮的消息是 Gemma 3n 支援包括繁體中文在內的 140 種以上的語言。即便用中文提問,它也已經準備好能精準理解並與您對話。介紹 Gemma 3:開發者指南 - Google Developers Blog
未來會產生什麼變化?
Google 從開發這款模型開始,就與全球智慧型手機製造商進行了緊密合作。Gemma 3n — Google DeepMind Gemma 3n 的基因與未來將預載於 Android 手機或 Chrome 瀏覽器中的次世代 「Gemini Nano」 同出一源。宣佈 Gemma 3n 預覽:強大、高效、行動優先的 AI
在不久的將來,我們新購買的智慧型手機中基本上都會內建這位「小巨人」。全球無數的 App 開發者也將利用這項技術,推出許多我們想像不到的便利應用程式。介紹 Gemma 3n:開發者指南 - Google Developers Blog
| 它不僅能生成文字,還能看著照片進行解釋,並與您共同分擔煩惱。Gemma 3n 將會以這種方式,安靜卻堅定地改變我們的世界。[Gemma 3 模型概覽 | Google AI for Developers - Gemini API](https://ai.google.dev/gemma/docs/core) |
AI 的視線
「Gemma 3n 正在用技術證明『小而美』的格言。在保持大型 AI 性能的同時,能完美融入我們口袋裝置的智慧,正是人工智慧成為大眾真正夥伴的最快且最確定的途徑。現在,AI 將不再雲端(Cloud)之上,而是在我們身邊與我們共同呼吸。」
參考資料
- 介紹 Gemma 3n:開發者指南 - Google Developers
-
[Gemma 3n 模型概覽 Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n) - 介紹 Gemma 3n:開發者指南 - simonwillison.net
- Gemma 3n — Google DeepMind
- 介紹 Gemma 3n:開發者指南 – ONMINE
- 宣佈 Gemma 3n 預覽:強大、高效、行動優先的 AI
- 介紹 Gemma 3:開發者指南 - Google Developers Blog
- Gemma 3 介紹:開發者指南 - Google Developers Blog
-
[Gemma 3 模型概覽 Google AI for Developers - Gemini API](https://ai.google.dev/gemma/docs/core) - Gemma 說明:Gemma 3 的新功能 - Google Developers Blog
-
[開始使用 Gemma 模型 Google AI for Developers](https://ai.google.dev/gemma/docs/get_started) - 介紹 Gemma 3n:開發者指南 - robotics.ee
-
[Gemma 3n 開發者部落格 Gemma-3n.net](https://www.gemma-3n.net/blog) - 介紹 Gemma 3n:開發者指南 - AI SCKOOL
FACT-CHECK SUMMARY
- Claims checked: 16
- Claims verified: 16
- Verdict: PASS
- 通用模型
- 多模態
- 多任務
- MatFormer 結構
- 雲端串流
- 數據無限增長
- Gemini Ultra
- Gemini Pro
- Gemini Nano