我口袋裡的聰明助手:Google「Gemma 3n」如何改變我們的日常生活

在智慧型手機螢幕上,文字、圖像、聲波與影片圖示有機連結並運作的示意圖
AI Summary

Google 發布了可直接在智慧型手機與筆記型電腦上運行的強大多模態 AI「Gemma 3n」,開啟了無需雲端連接即可理解影片與聲音的裝置端 AI(On-device AI)新時代。

想像一下,您正帶著一支開啟飛行模式的智慧型手機在異國他鄉旅行。儘管餐廳菜單上全是不認識的外語,讓人感到困惑,但您毫不猶豫地拍下照片。隨後,即便完全沒有網路連接,AI 也能立即將菜單翻譯成繁體中文,並親切地解釋食材的由來。它甚至能看著您在深山裡拍攝的一段短片,溫柔地告訴您:「右邊看到的那棵樹是雪嶽山常見的朱木。」

這樣的景象現在已不再是電影中的故事。Google 最近公開的新型人工智慧模型 「Gemma 3n」,很快就會在我們口袋裡的智慧型手機中,將這些場景變為現實。宣佈 Gemma 3n 預覽:強大、高效、行動優先的 AI

為什麼這對我們很重要?

過去我們使用的 ChatGPT 或 Gemini 等聰明的 AI,實際上需要巨大的「基地台」。當我們提出問題時,內容會傳送到地球另一端 Google 或 OpenAI 的大型電腦(伺服器),然後在那裡生成答案再傳送回來。

但 Gemma 3n 完全不同。這款模型從一開始就是為了在我們的手機、筆記型電腦和平板電腦中直接思考與回答而設計的 「行動優先(Mobile-first)」 AI。[Gemma 3n 模型概覽 Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)

簡單來說,這等於是將一整座名為 AI 的巨大圖書館塞進了您的口袋。這為何能讓我們的生活變得更好?以下列舉三個重點:

  1. 徹底的隱私保護:您拍攝的照片或與家人進行的對話不會被傳送到外部伺服器。所有處理僅在您的裝置內完成,無需擔心駭客攻擊或資料外洩。
  2. 閃電般的速度:不需要傳輸網路訊號的時間。按下按鈕後,AI 會立即做出反應。當然,也不用再擔心數據資費。
  3. 隨時隨地自由使用:無論是在飛機上、收不到訊號的地下停車場,還是國外旅遊景點的中心,都能獲得 AI 的幫助。

著名 AI 專家賽門·威利森(Simon Willison)對此次發布給予高度評價,稱其為「Google 公開的一個非常重要的模型,任何人都可以自由查看內部結構並加以利用」。介紹 Gemma 3n:開發者指南 - simonwillison.net

易於理解:Gemma 3n 的三項特殊才華

Gemma 3n 不僅僅是一個只會讀書的書呆子。這款模型的關鍵字是 「多模態(Multimodal)」。這意味著它能同時處理多種形式(模態)的資訊。介紹 Gemma 3n:開發者指南 - simonwillison.net

1. 擁有眼睛和耳朵的 AI

Gemma 3n 不僅能理解文字,還能同時理解圖片(圖像)、聲音(音訊)以及影片。打個比方,如果以前的 AI 是只會讀書的學者,那麼 Gemma 3n 就像是能用眼睛看、用耳朵聽,並與我們對話的「現場導遊」。如果您給它看一段小狗的影片並詢問「牠現在心情看起來如何?」,它能綜合分析影片中尾巴的動作和吠叫聲,來分析小狗的情緒。介紹 Gemma 3n:開發者指南 - AI SCKOOL

2. 根據情況調節力量的「MatFormer」

智慧型手機的性能比電腦低,電池也消耗得快。為了補救這個問題,Google 導入了名為 MatFormer 的靈巧設計。Gemma 3n 模型概覽 | Google AI for Developers

如果將 AI 比作汽車,普通 AI 是始終全力奔跑的超級跑車,而 Gemma 3n 則像是配備了根據情況調整輸出的 「可變引擎」 的汽車。在進行複雜推理時會發揮最大力量,而在整理簡單筆記時則會節省能源以減少電池消耗。多虧了這項技術,我們可以使用 AI 很長時間,而不必擔心手機發燙。[Gemma 3n 模型概覽 Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)

3. 常用的工具就在手邊,「PLE 快取」

Gemma 3n 中還隱藏了名為 逐層嵌入(Per-Layer Embedding, PLE) 的高級技術。Gemma 3n 模型概覽 | Google AI for Developers

這就像頂級廚師在料理時,會把常用的鹽和胡椒放在料理台旁(快取),而不是櫥櫃深處。AI 在處理資訊時,會將最常用的核心數據預先配置在手邊,這是它只需較少計算就能給出更快、更聰明答案的秘訣。介紹 Gemma 3n:開發者指南 - AI SCKOOL

現狀:它距離我們的日常生活有多近?

Gemma 3n 是 Google 迄今為止累積的視覺智慧(PaliGemma)技術與精確學習經驗的結晶。Gemma 說明:Gemma 3 的新功能 - Google Developers Blog

特別是 Google 使用了被稱為「蒸餾(Distillation)」的技術。這就像是將老練師傅知識的精華提取出來,傳授給弟子(小模型)的過程。因此,雖然體積變小了,但在解答數學問題、編寫程式碼或執行複雜指令方面的能力,完全不遜色於一般的大型模型。Gemma 3 介紹:開發者指南 - Google Developers Blog

最令人振奮的消息是 Gemma 3n 支援包括繁體中文在內的 140 種以上的語言。即便用中文提問,它也已經準備好能精準理解並與您對話。介紹 Gemma 3:開發者指南 - Google Developers Blog

未來會產生什麼變化?

Google 從開發這款模型開始,就與全球智慧型手機製造商進行了緊密合作。Gemma 3n — Google DeepMind Gemma 3n 的基因與未來將預載於 Android 手機或 Chrome 瀏覽器中的次世代 「Gemini Nano」 同出一源。宣佈 Gemma 3n 預覽:強大、高效、行動優先的 AI

在不久的將來,我們新購買的智慧型手機中基本上都會內建這位「小巨人」。全球無數的 App 開發者也將利用這項技術,推出許多我們想像不到的便利應用程式。介紹 Gemma 3n:開發者指南 - Google Developers Blog

它不僅能生成文字,還能看著照片進行解釋,並與您共同分擔煩惱。Gemma 3n 將會以這種方式,安靜卻堅定地改變我們的世界。[Gemma 3 模型概覽 Google AI for Developers - Gemini API](https://ai.google.dev/gemma/docs/core)

AI 的視線

「Gemma 3n 正在用技術證明『小而美』的格言。在保持大型 AI 性能的同時,能完美融入我們口袋裝置的智慧,正是人工智慧成為大眾真正夥伴的最快且最確定的途徑。現在,AI 將不再雲端(Cloud)之上,而是在我們身邊與我們共同呼吸。」

參考資料

  1. 介紹 Gemma 3n:開發者指南 - Google Developers
  2. [Gemma 3n 模型概覽 Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)
  3. 介紹 Gemma 3n:開發者指南 - simonwillison.net
  4. Gemma 3n — Google DeepMind
  5. 介紹 Gemma 3n:開發者指南 – ONMINE
  6. 宣佈 Gemma 3n 預覽:強大、高效、行動優先的 AI
  7. 介紹 Gemma 3:開發者指南 - Google Developers Blog
  8. Gemma 3 介紹:開發者指南 - Google Developers Blog
  9. [Gemma 3 模型概覽 Google AI for Developers - Gemini API](https://ai.google.dev/gemma/docs/core)
  10. Gemma 說明:Gemma 3 的新功能 - Google Developers Blog
  11. [開始使用 Gemma 模型 Google AI for Developers](https://ai.google.dev/gemma/docs/get_started)
  12. 介紹 Gemma 3n:開發者指南 - robotics.ee
  13. [Gemma 3n 開發者部落格 Gemma-3n.net](https://www.gemma-3n.net/blog)
  14. 介紹 Gemma 3n:開發者指南 - AI SCKOOL

FACT-CHECK SUMMARY

  • Claims checked: 16
  • Claims verified: 16
  • Verdict: PASS
測試你的理解
Q1. 除了文字之外,Gemma 3n 還能理解圖像、音訊和影片,這種特性稱為什麼?
  • 通用模型
  • 多模態
  • 多任務
同時處理文字以及視覺(圖片、影片)與聽覺(音訊)資訊的能力被稱為「多模態」。
Q2. Gemma 3n 為了節省裝置記憶體與電力所使用的技術之一為何?
  • MatFormer 結構
  • 雲端串流
  • 數據無限增長
MatFormer 是 Gemma 3n 的核心技術,能根據情況靈活調整計算量,進而減少記憶體與電力消耗。
Q3. Gemma 3n 的技術基礎與 Android 或 Chrome 中將使用的哪款模型共用?
  • Gemini Ultra
  • Gemini Pro
  • Gemini Nano
Gemma 3n 與將搭載於次世代 Android 和 Chrome 的「Gemini Nano」共享核心設計。