谷歌发布了可在智能手机和笔记本电脑上直接运行的强大多模态 AI 'Gemma 3n',开启了无需云端连接即可理解视频和声音的端侧 AI(On-device AI)时代。
想象一下,你正带着开启飞行模式的智能手机在异国他乡旅行。餐馆菜单上全是陌生的外语,让你感到困惑,但你并不慌张,而是拍了一张照片。接着,即使完全没有网络连接,AI 也能立即将菜单翻译成中文,并贴心地解释食材的来源。它甚至能识别你在深山里拍摄的一段登山短视频,亲切地告诉你:“右边看到的那棵树是雪岳山常见的朱木。”
这样的场景不再仅仅是电影里的桥段。谷歌最近公开的新款人工智能模型 ‘Gemma 3n’,很快就会让我们口袋里的智能手机将其变为现实。Announcing Gemma 3n preview: powerful, efficient, mobile-first AI
这为什么对我们很重要?
在此之前,我们使用的 ChatGPT 或 Gemini 等聪明 AI 其实都需要巨大的“基站”。当我们提出问题时,内容会飞向地球另一端的谷歌或 OpenAI 的大型计算机(服务器),然后在那里生成的回答再传回给我们。
| 但 Gemma 3n 完全不同。这款模型从一开始就是为了在我们的手机、笔记本电脑和平板电脑内部直接思考和回答而设计的 “移动优先(Mobile-first)” AI。[Gemma 3n model overview | Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n) |
简单来说,这相当于把 AI 这个巨大的图书馆整个装进了你的口袋。以下是它让我们的生活变得更好的三个理由:
- 彻底的隐私保护:拍摄的照片或与家人的对话不会被发送到外部服务器。一切只在我的设备内处理,因此无需担心黑客攻击或泄露,可以安心使用。
- 闪电般的速度:不需要往返传输互联网信号的时间。按下按钮,AI 就会立即做出反应。当然,也不必担心流量费用。
- 随时随地自由使用:在飞机上、信号不通的地下停车场,或者异国他乡的中心,你都能获得 AI 的帮助。
著名的 AI 专家赛门·威利森(Simon Willison)对此次发布给予了高度评价,称其为“谷歌公开的一个非常重要的模型,任何人都可以自由查看其内部结构并加以利用”。Introducing Gemma 3n: The developer guide - simonwillison.net
易于理解:Gemma 3n 的三项特殊才能
Gemma 3n 不仅仅是一个只会读书的书呆子。这款模型的核心关键词是 “多模态(Multimodal)”。这意味着它可以同时处理多种形式(模态)的信息。Introducing Gemma 3n: The developer guide - simonwillison.net
1. 拥有眼睛和耳朵的 AI
Gemma 3n 不仅能理解文字(文本),还能同时理解图片(图像)、声音(音频)以及影像(视频)。打个比方,如果说以前的 AI 是只会读书的学者,那么 Gemma 3n 就是一个能看、能听并能与我们交流的“现场导游”。如果你给它看一段小狗的视频并问“它现在看起来心情怎么样?”,它就能综合视频中尾巴的摆动和吠叫声来分析小狗的情绪。Introducing Gemma 3n: Developer’s Guide - AI SCKOOL
2. 根据情况调节力量的 ‘MatFormer’
手机的性能比电脑低,电池也消耗得快。为了解决这个问题,谷歌引入了名为 MatFormer 的巧妙设计。Gemma 3n model overview | Google AI for Developers
| 把它比作汽车如何?如果普通 AI 是始终全速行驶的超级跑车,那么 Gemma 3n 就像是配备了 “可变功率引擎” 的车,可以根据情况调节输出。在进行复杂推理时全力以赴,而在整理简单的备忘录时则节省能量以减少电池消耗。多亏了它,我们可以长时间使用 AI 而不必担心手机发烫。[Gemma 3n model overview | Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n) |
3. 常用工具触手可及,’PLE 缓存’
Gemma 3n 中还隐藏着名为 按层嵌入(Per-Layer Embedding, PLE) 的高级技术。Gemma 3n model overview | Google AI for Developers
这就像顶尖厨师做菜时,不会把常用的盐和胡椒放在橱柜深处,而是放在操作台旁边(缓存)一样。通过将 AI 处理信息时最常用的核心数据预先放置在触手可及的地方,这就是它能以更少的计算量给出更快、更聪明回答的秘诀。Introducing Gemma 3n: Developer’s Guide - AI SCKOOL
现状:离我们的日常生活有多近?
Gemma 3n 是谷歌集结了长期积累的视觉智能(PaliGemma)技术和精细训练经验的成果。Gemma 解释:Gemma 3 的新功能 - Google Developers Blog
特别是谷歌使用了被称为“蒸馏(Distillation)”的技术。这就像将资深导师的知识提炼出核心并传授给弟子(小模型)的过程。得益于此,虽然体型变小了,但在解决数学题、编程以及执行复杂指令方面的能力却不亚于普通大型模型。Gemma 3 介绍:开发者指南 - Google Developers Blog
最令人振奋的消息是,Gemma 3n 支持包括中文在内的 140 多种语言。它已经准备好听懂你的中文提问并与你进行交流。Introducing Gemma 3: The Developer Guide- Google Developers Blog
未来会产生什么样的变化?
谷歌在开发这款模型时就与全球智能手机制造商进行了紧密合作。Gemma 3n — Google DeepMind Gemma 3n 的基因与未来将预装在安卓智能手机或 Chrome 浏览器中的下一代 “Gemini Nano” 同宗同源。Announcing Gemma 3n preview: powerful, efficient, mobile-first AI
不久之后,我们新买的智能手机里就会内置这个“小巨人”。全球无数的应用程序开发者将利用这项技术,推出我们意想不到的便捷应用。Introducing Gemma 3n: The developer guide - Google Developers …
| 它超越了单纯生成文字的水平,成为能看图说明、能一起解决烦恼的坚实助手。Gemma 3n 将在我们身边静悄悄地、但切实地改变世界。[Gemma 3 模型概览 | Google AI for Developers - Gemini API](https://ai.google.dev/gemma/docs/core) |
AI 的视角
“Gemma 3n 正在用技术证明‘小即是美’这句格言。在保持大型 AI 性能的同时,能缩进我们口袋设备的智能,这正是人工智能成为大众真正伴侣的最快、最确定的道路。现在,AI 将不再位于云端(Cloud),而是在我们身边共同呼吸。”
参考资料
- Introducing Gemma 3n: The developer guide - Google Developers
-
[Gemma 3n model overview Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n) - Introducing Gemma 3n: The developer guide - simonwillison.net
- Gemma 3n — Google DeepMind
- Introducing Gemma 3n: The developer guide – ONMINE
- Announcing Gemma 3n preview: powerful, efficient, mobile-first AI
- Introducing Gemma 3: The Developer Guide- Google Developers Blog
- Gemma 3 介绍:开发者指南 - Google Developers Blog
-
[Gemma 3 模型概览 Google AI for Developers - Gemini API](https://ai.google.dev/gemma/docs/core) - Gemma 解释:Gemma 3 的新功能 - Google Developers Blog
-
[Get started with Gemma models Google AI for Developers](https://ai.google.dev/gemma/docs/get_started) - Introducing Gemma 3n: The developer guide - robotics.ee
-
[Gemma 3n Developer Blog Gemma-3n.net](https://www.gemma-3n.net/blog) - Introducing Gemma 3n: Developer’s Guide - AI SCKOOL
FACT-CHECK SUMMARY
- Claims checked: 16
- Claims verified: 16
- Verdict: PASS
- 通用模型
- 多模态
- 多任务
- MatFormer 结构
- 云端流式传输
- 数据无限增殖
- Gemini Ultra
- Gemini Pro
- Gemini Nano