口袋里的聪明助手：谷歌 'Gemma 3n' 如何改变我们的日常生活

AI Summary

谷歌发布了可在智能手机和笔记本电脑上直接运行的强大多模态 AI 'Gemma 3n'，开启了无需云端连接即可理解视频和声音的端侧 AI（On-device AI）时代。

想象一下，你正带着开启飞行模式的智能手机在异国他乡旅行。餐馆菜单上全是陌生的外语，让你感到困惑，但你并不慌张，而是拍了一张照片。接着，即使完全没有网络连接，AI 也能立即将菜单翻译成中文，并贴心地解释食材的来源。它甚至能识别你在深山里拍摄的一段登山短视频，亲切地告诉你：“右边看到的那棵树是雪岳山常见的朱木。”

这样的场景不再仅仅是电影里的桥段。谷歌最近公开的新款人工智能模型 ‘Gemma 3n’，很快就会让我们口袋里的智能手机将其变为现实。Announcing Gemma 3n preview: powerful, efficient, mobile-first AI

这为什么对我们很重要？

在此之前，我们使用的 ChatGPT 或 Gemini 等聪明 AI 其实都需要巨大的“基站”。当我们提出问题时，内容会飞向地球另一端的谷歌或 OpenAI 的大型计算机（服务器），然后在那里生成的回答再传回给我们。

但 Gemma 3n 完全不同。这款模型从一开始就是为了在我们的手机、笔记本电脑和平板电脑内部直接思考和回答而设计的 “移动优先（Mobile-first）” AI。[Gemma 3n model overview

Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)

简单来说，这相当于把 AI 这个巨大的图书馆整个装进了你的口袋。以下是它让我们的生活变得更好的三个理由：

彻底的隐私保护：拍摄的照片或与家人的对话不会被发送到外部服务器。一切只在我的设备内处理，因此无需担心黑客攻击或泄露，可以安心使用。
闪电般的速度：不需要往返传输互联网信号的时间。按下按钮，AI 就会立即做出反应。当然，也不必担心流量费用。
随时随地自由使用：在飞机上、信号不通的地下停车场，或者异国他乡的中心，你都能获得 AI 的帮助。

著名的 AI 专家赛门·威利森（Simon Willison）对此次发布给予了高度评价，称其为“谷歌公开的一个非常重要的模型，任何人都可以自由查看其内部结构并加以利用”。Introducing Gemma 3n: The developer guide - simonwillison.net

易于理解：Gemma 3n 的三项特殊才能

Gemma 3n 不仅仅是一个只会读书的书呆子。这款模型的核心关键词是 “多模态（Multimodal）”。这意味着它可以同时处理多种形式（模态）的信息。Introducing Gemma 3n: The developer guide - simonwillison.net

1. 拥有眼睛和耳朵的 AI

Gemma 3n 不仅能理解文字（文本），还能同时理解图片（图像）、声音（音频）以及影像（视频）。打个比方，如果说以前的 AI 是只会读书的学者，那么 Gemma 3n 就是一个能看、能听并能与我们交流的“现场导游”。如果你给它看一段小狗的视频并问“它现在看起来心情怎么样？”，它就能综合视频中尾巴的摆动和吠叫声来分析小狗的情绪。Introducing Gemma 3n: Developer’s Guide - AI SCKOOL

2. 根据情况调节力量的 ‘MatFormer’

手机的性能比电脑低，电池也消耗得快。为了解决这个问题，谷歌引入了名为 MatFormer 的巧妙设计。Gemma 3n model overview | Google AI for Developers

把它比作汽车如何？如果普通 AI 是始终全速行驶的超级跑车，那么 Gemma 3n 就像是配备了 “可变功率引擎” 的车，可以根据情况调节输出。在进行复杂推理时全力以赴，而在整理简单的备忘录时则节省能量以减少电池消耗。多亏了它，我们可以长时间使用 AI 而不必担心手机发烫。[Gemma 3n model overview

Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)

3. 常用工具触手可及，’PLE 缓存’

Gemma 3n 中还隐藏着名为 按层嵌入（Per-Layer Embedding, PLE） 的高级技术。Gemma 3n model overview | Google AI for Developers

这就像顶尖厨师做菜时，不会把常用的盐和胡椒放在橱柜深处，而是放在操作台旁边（缓存）一样。通过将 AI 处理信息时最常用的核心数据预先放置在触手可及的地方，这就是它能以更少的计算量给出更快、更聪明回答的秘诀。Introducing Gemma 3n: Developer’s Guide - AI SCKOOL

现状：离我们的日常生活有多近？

Gemma 3n 是谷歌集结了长期积累的视觉智能（PaliGemma）技术和精细训练经验的成果。Gemma 解释：Gemma 3 的新功能 - Google Developers Blog

特别是谷歌使用了被称为“蒸馏（Distillation）”的技术。这就像将资深导师的知识提炼出核心并传授给弟子（小模型）的过程。得益于此，虽然体型变小了，但在解决数学题、编程以及执行复杂指令方面的能力却不亚于普通大型模型。Gemma 3 介绍：开发者指南 - Google Developers Blog

最令人振奋的消息是，Gemma 3n 支持包括中文在内的 140 多种语言。它已经准备好听懂你的中文提问并与你进行交流。Introducing Gemma 3: The Developer Guide- Google Developers Blog

未来会产生什么样的变化？

谷歌在开发这款模型时就与全球智能手机制造商进行了紧密合作。Gemma 3n — Google DeepMind Gemma 3n 的基因与未来将预装在安卓智能手机或 Chrome 浏览器中的下一代 “Gemini Nano” 同宗同源。Announcing Gemma 3n preview: powerful, efficient, mobile-first AI

不久之后，我们新买的智能手机里就会内置这个“小巨人”。全球无数的应用程序开发者将利用这项技术，推出我们意想不到的便捷应用。Introducing Gemma 3n: The developer guide - Google Developers …

它超越了单纯生成文字的水平，成为能看图说明、能一起解决烦恼的坚实助手。Gemma 3n 将在我们身边静悄悄地、但切实地改变世界。[Gemma 3 模型概览

Google AI for Developers - Gemini API](https://ai.google.dev/gemma/docs/core)

AI 的视角

“Gemma 3n 正在用技术证明‘小即是美’这句格言。在保持大型 AI 性能的同时，能缩进我们口袋设备的智能，这正是人工智能成为大众真正伴侣的最快、最确定的道路。现在，AI 将不再位于云端（Cloud），而是在我们身边共同呼吸。”

参考资料

Introducing Gemma 3n: The developer guide - Google Developers
[Gemma 3n model overview Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)
Introducing Gemma 3n: The developer guide - simonwillison.net
Gemma 3n — Google DeepMind
Introducing Gemma 3n: The developer guide – ONMINE
Announcing Gemma 3n preview: powerful, efficient, mobile-first AI
Introducing Gemma 3: The Developer Guide- Google Developers Blog
Gemma 3 介绍：开发者指南 - Google Developers Blog
[Gemma 3 模型概览 Google AI for Developers - Gemini API](https://ai.google.dev/gemma/docs/core)
Gemma 解释：Gemma 3 的新功能 - Google Developers Blog
[Get started with Gemma models Google AI for Developers](https://ai.google.dev/gemma/docs/get_started)
Introducing Gemma 3n: The developer guide - robotics.ee
[Gemma 3n Developer Blog Gemma-3n.net](https://www.gemma-3n.net/blog)
Introducing Gemma 3n: Developer’s Guide - AI SCKOOL

FACT-CHECK SUMMARY

Claims checked: 16
Claims verified: 16
Verdict: PASS

Share this article:

测试你的理解

Q1. 除了文本之外，Gemma 3n 还能理解图像、音频和视频，这一特性称为什么？

通用模型
多模态
多任务

同时处理文字（文本）、视觉（图像、视频）和听觉（音频）信息的能力被称为“多模态”。

Q2. Gemma 3n 为了节省设备的内存和功耗而使用的核心技术之一是什么？

MatFormer 结构
云端流式传输
数据无限增殖

MatFormer 是 Gemma 3n 的核心技术，它可以根据情况灵活调节计算量，从而减少内存和功耗。

Q3. Gemma 3n 的技术基础将与安卓或 Chrome 中使用的哪款模型共享？

Gemini Ultra
Gemini Pro
Gemini Nano

Gemma 3n 与将搭载在下一代安卓和 Chrome 中的“Gemini Nano”共享核心设计。