您的掌上智能助手，Gemma 3n 简介：人工智能如何走进我们的口袋

AI Summary

谷歌发布了专为智能手机等个人设备设计的高性能移动优先 AI 'Gemma 3n'，开启了一个无需互联网连接即可在设备上直接看、听、说的智能 AI 时代。

想象一下。 你正在嘈杂的咖啡馆里和朋友聊天，突然产生了一个疑问。你拿出智能手机，对着周围的风景晃一晃，问道：“我现在看到的这朵花叫什么名字？顺便帮我把刚才点的菜的价格加起来算一下。” 令人惊讶的是，即使手机处于飞行模式，它也能瞬间识别出画面中的花朵，听懂你的声音，并在几秒钟内给出答案。

这并不是科幻电影中的场景。谷歌最近发布的名为 “Gemma 3n” 的新型人工智能（AI）模型，很快就会在你口袋里的智能手机上实现这一现实。今天，我们将抛开复杂的 IT 术语，用通俗易懂的方式为你解释为什么这个新的 AI 会成为改变我们日常生活的“聪明小伙伴”。Gemma 3n 简介：开发者指南 - Google Developers Blog

为什么这很重要？

到目前为止，我们使用的 ChatGPT 或 Gemini 等大多数聪明的 AI 实际上都住在巨大的工厂（数据中心）里。当我们在智能手机上提问时，那个问题会飞向地球另一端的巨大服务器，处理后再飞回来。打个比方，这就好比为了解一道简单的数学题，每次都要打电话给远在总部的超级计算机询问。

但是 Gemma 3n 是以“移动优先（Mobile-first）”的理念诞生的。 宣布 Gemma 3n 预览版：强大、高效、移动优先的 AI 也就是说，它被设计得既小巧又强大，无需巨大服务器的帮助，就能在我们每天携带的智能手机、笔记本电脑和平板电脑中独立思考并给出答案。[Gemma 3n 模型概述

Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)

当这种“端侧 AI（On-device AI，设备原生运行 AI）”成为可能时，我们的生活将迎来三大变化：

彻底的隐私保护：你日常生活的照片或声音数据不会通过互联网传送到外部服务器。所有的对话和分析都只在“你的设备内”进行，安全可靠。
闪电般的响应速度：省去了在服务器之间往返的时间。你可以感受到像在和身边的朋友说话一样即时的反应。
不限地点的离线使用：无论是在没有信号的飞机上，还是在深山里的露营地，你都可以随时获得 AI 助手的帮助。

轻松理解：Gemma 3n 的三大魔法

为什么 Gemma 3n 被评价为特别出众？让我们通过简单的比喻来看看其核心技术。

1. 拥有眼和耳的“多模态”优等生

如果说早期的 AI 是只能读写的学生，那么 Gemma 3n 就是拥有眼（图像·视频）和耳（语音）的全能优等生。这在专业术语中被称为 “多模态（Multimodal）”，意为能够同时理解多种（Multi）形式的信息（Modal）。Gemma 3n 简介：开发者指南 - simonwillison.net

例如，Gemma 3n 可以看你拍摄的一段短视频，当你问“这段视频中主角吃惊的画面在哪？”时，它能准确找出来；或者听一段录音的讲座内容，为你精准提炼核心要点。Gemma 3n 简介：开发者指南 - simonwillison.net

2. 像皮筋一样调节大脑大小的“MatFormer”

与巨大的服务器级计算机相比，智能手机的记忆力（内存）和体力（电池）严重不足。为了突破这一局限，Gemma 3n 引入了一项名为 “MatFormer” 的创新技术。Gemma 3n 模型概述 | Google AI for Developers

这类似于 “组合家具”。住在一居室的人（入门级智能手机）只组装家具的必备组件以节省空间，而住在大房子里的人（最新型笔记本电脑）则可以展开全套家具，使用得更华丽。得益于 MatFormer，Gemma 3n 可以根据设备规格灵活调整大脑大小，保持最佳状态。Gemma 3n 简介：开发者指南 - AI SCKOOL

3. 聪明的记忆存储法，“PLE”与“缓存共享”

我们在学习时，如果每次都从头读起，会非常耗时。Gemma 3n 通过 “PLE（逐层嵌入）” 技术，高效地存储重要的信息碎片。Gemma 3n 模型概述 | Google AI for Developers

就像资深厨师将常用的调料放在触手可及的地方一样，它将常用的信息保存在临时存储库（缓存）中，需要时立即取用。因此，即使是智能手机较小的内存，也能轻松完成复杂的推理任务。Gemma 3n 简介：开发者指南 - williamcallahan.com

现状：它已经来到我们身边

谷歌并没有独自垄断这项强大的技术，而是广泛地向全球开发者开放。通过 “Hugging Face” 或 “Ollama” 等著名的 AI 平台，无数人已经开始开发基于 Gemma 3n 的应用。Gemma 3n 简介：开发者指南 - Google Developers Blog Gemma 3n 简介：开发者指南 - ONMINE

事实上，已经有 600 多个创意通过 Gemma 3n 变为现实。这些开发者正在通过 Gemma 3n 改变生活 - The Keyword 尤其是“GemmaVision”项目，利用 Gemma 3n 的眼睛为视障人士解释周围环境，这一创新功能引起了巨大的关注。这些开发者正在通过 Gemma 3n 改变生活 - The Keyword

此外，谷歌正与三星电子、高通等全球 制造商紧密合作。Gemma 3n — Google DeepMind 这预示着，在你下次购买的安卓手机或 Chrome 浏览器中，你将以更流畅、更自然的方式体验到 Gemma 3n 的魔力。宣布 Gemma 3n 预览版：强大、高效、移动优先的 AI

未来会怎样？

Gemma 3n 的设计蓝图与搭载在安卓和 Chrome 上的下一代 “Gemini Nano” 同宗同源。Gemma 3n — Google DeepMind 最终，Gemma 3n 的进化将直接转化为我们每天使用的智能手机基本功能的进化。

在不久的将来，我们将享受这样的日常生活：

实时翻译耳机：即使在海外旅行中数据断开，也能将对方的话立即翻译成我的声音。
会说话的相册：只需说“帮我找一张去年夏天在海边我笑着的照片”，AI 就能读取照片中的表情并找出来。
安全的个人助手：它了如指掌我的日程和喜好，但信息绝不会泄露到设备之外，是可靠的 AI 助手。

谷歌 DeepMind 表示，Gemma 3n 确信“将开启新一轮智能端侧设备时代”。Gemma 3n — Google DeepMind

MindTickleBytes 的 AI 记者视角

“Gemma 3n 的出现意味着 AI 不再是住在‘云端’的神秘存在，而是成为了在‘我手掌上’共同呼吸的工具。尤其是设备直接看和听的能力，将改变我们与机器交流的语言本身。现在，我们已经走过了偶尔使用 AI 的时代，真正与 AI 24 小时共处的智能移动时代已经开始。”

参考资料

Gemma 3n 简介：开发者指南 - Google Developers Blog
[Gemma 3n 模型概述 Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)
Gemma 3n 简介：开发者指南 - simonwillison.net
Gemma 3n — Google DeepMind
Gemma 3n 简介：开发者指南 - ONMINE
宣布 Gemma 3n 预览版：强大、高效、移动优先的 AI
Gemma 3n 简介：开发者指南 - Google Developers Blog
这些开发者正在通过 Gemma 3n 改变生活 - The Keyword
Gemma 3n 简介：开发者指南 - AI SCKOOL
Gemma 3n 简介：开发者指南 - williamcallahan.com

FACT-CHECK SUMMARY

Claims checked: 17
Claims verified: 17
Verdict: PASS

Share this article:

测试你的理解

Q1. Gemma 3n 与之前模型相比最大的区别特征是什么？

只能阅读文本。
是能够理解图像、语音、视频和文本的多模态模型。
只能在巨型超级计算机上运行。

Gemma 3n 采用多模态（Multimodal）设计，原生支持图像、语音、视频和文本输入。

Q2. 在 Gemma 3n 使用的技术中，为了节省设备的内存和计算能力而灵活调节模型大小的技术名称是？

MatFormer
SuperChain
CloudLink

MatFormer 技术提供了根据设备性能减少计算量和内存需求的灵活性。

Q3. Gemma 3n 未来将作为哪项服务的基石技术？

苹果的 Siri
安卓和 Chrome 的下一代 Gemini Nano
OpenAI 的 ChatGPT

Gemma 3n 的架构将与搭载在安卓和 Chrome 浏览器上的下一代 Gemini Nano 共享。