口袋里的聪明助手:谷歌 'Gemma 3n' 如何改变我们的日常生活

在智能手机屏幕上,文本、图像、声波和视频图标有机连接并运行的形象化图像
AI Summary

谷歌发布了可在智能手机和笔记本电脑上直接运行的强大多模态 AI 'Gemma 3n',开启了无需云端连接即可理解视频和声音的端侧 AI(On-device AI)时代。

想象一下,你正带着开启飞行模式的智能手机在异国他乡旅行。餐馆菜单上全是陌生的外语,让你感到困惑,但你并不慌张,而是拍了一张照片。接着,即使完全没有网络连接,AI 也能立即将菜单翻译成中文,并贴心地解释食材的来源。它甚至能识别你在深山里拍摄的一段登山短视频,亲切地告诉你:“右边看到的那棵树是雪岳山常见的朱木。”

这样的场景不再仅仅是电影里的桥段。谷歌最近公开的新款人工智能模型 ‘Gemma 3n’,很快就会让我们口袋里的智能手机将其变为现实。Announcing Gemma 3n preview: powerful, efficient, mobile-first AI

这为什么对我们很重要?

在此之前,我们使用的 ChatGPT 或 Gemini 等聪明 AI 其实都需要巨大的“基站”。当我们提出问题时,内容会飞向地球另一端的谷歌或 OpenAI 的大型计算机(服务器),然后在那里生成的回答再传回给我们。

但 Gemma 3n 完全不同。这款模型从一开始就是为了在我们的手机、笔记本电脑和平板电脑内部直接思考和回答而设计的 “移动优先(Mobile-first)” AI。[Gemma 3n model overview Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)

简单来说,这相当于把 AI 这个巨大的图书馆整个装进了你的口袋。以下是它让我们的生活变得更好的三个理由:

  1. 彻底的隐私保护:拍摄的照片或与家人的对话不会被发送到外部服务器。一切只在我的设备内处理,因此无需担心黑客攻击或泄露,可以安心使用。
  2. 闪电般的速度:不需要往返传输互联网信号的时间。按下按钮,AI 就会立即做出反应。当然,也不必担心流量费用。
  3. 随时随地自由使用:在飞机上、信号不通的地下停车场,或者异国他乡的中心,你都能获得 AI 的帮助。

著名的 AI 专家赛门·威利森(Simon Willison)对此次发布给予了高度评价,称其为“谷歌公开的一个非常重要的模型,任何人都可以自由查看其内部结构并加以利用”。Introducing Gemma 3n: The developer guide - simonwillison.net

易于理解:Gemma 3n 的三项特殊才能

Gemma 3n 不仅仅是一个只会读书的书呆子。这款模型的核心关键词是 “多模态(Multimodal)”。这意味着它可以同时处理多种形式(模态)的信息。Introducing Gemma 3n: The developer guide - simonwillison.net

1. 拥有眼睛和耳朵的 AI

Gemma 3n 不仅能理解文字(文本),还能同时理解图片(图像)、声音(音频)以及影像(视频)。打个比方,如果说以前的 AI 是只会读书的学者,那么 Gemma 3n 就是一个能看、能听并能与我们交流的“现场导游”。如果你给它看一段小狗的视频并问“它现在看起来心情怎么样?”,它就能综合视频中尾巴的摆动和吠叫声来分析小狗的情绪。Introducing Gemma 3n: Developer’s Guide - AI SCKOOL

2. 根据情况调节力量的 ‘MatFormer’

手机的性能比电脑低,电池也消耗得快。为了解决这个问题,谷歌引入了名为 MatFormer 的巧妙设计。Gemma 3n model overview | Google AI for Developers

把它比作汽车如何?如果普通 AI 是始终全速行驶的超级跑车,那么 Gemma 3n 就像是配备了 “可变功率引擎” 的车,可以根据情况调节输出。在进行复杂推理时全力以赴,而在整理简单的备忘录时则节省能量以减少电池消耗。多亏了它,我们可以长时间使用 AI 而不必担心手机发烫。[Gemma 3n model overview Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)

3. 常用工具触手可及,’PLE 缓存’

Gemma 3n 中还隐藏着名为 按层嵌入(Per-Layer Embedding, PLE) 的高级技术。Gemma 3n model overview | Google AI for Developers

这就像顶尖厨师做菜时,不会把常用的盐和胡椒放在橱柜深处,而是放在操作台旁边(缓存)一样。通过将 AI 处理信息时最常用的核心数据预先放置在触手可及的地方,这就是它能以更少的计算量给出更快、更聪明回答的秘诀。Introducing Gemma 3n: Developer’s Guide - AI SCKOOL

现状:离我们的日常生活有多近?

Gemma 3n 是谷歌集结了长期积累的视觉智能(PaliGemma)技术和精细训练经验的成果。Gemma 解释:Gemma 3 的新功能 - Google Developers Blog

特别是谷歌使用了被称为“蒸馏(Distillation)”的技术。这就像将资深导师的知识提炼出核心并传授给弟子(小模型)的过程。得益于此,虽然体型变小了,但在解决数学题、编程以及执行复杂指令方面的能力却不亚于普通大型模型。Gemma 3 介绍:开发者指南 - Google Developers Blog

最令人振奋的消息是,Gemma 3n 支持包括中文在内的 140 多种语言。它已经准备好听懂你的中文提问并与你进行交流。Introducing Gemma 3: The Developer Guide- Google Developers Blog

未来会产生什么样的变化?

谷歌在开发这款模型时就与全球智能手机制造商进行了紧密合作。Gemma 3n — Google DeepMind Gemma 3n 的基因与未来将预装在安卓智能手机或 Chrome 浏览器中的下一代 “Gemini Nano” 同宗同源。Announcing Gemma 3n preview: powerful, efficient, mobile-first AI

不久之后,我们新买的智能手机里就会内置这个“小巨人”。全球无数的应用程序开发者将利用这项技术,推出我们意想不到的便捷应用。Introducing Gemma 3n: The developer guide - Google Developers …

它超越了单纯生成文字的水平,成为能看图说明、能一起解决烦恼的坚实助手。Gemma 3n 将在我们身边静悄悄地、但切实地改变世界。[Gemma 3 模型概览 Google AI for Developers - Gemini API](https://ai.google.dev/gemma/docs/core)

AI 的视角

“Gemma 3n 正在用技术证明‘小即是美’这句格言。在保持大型 AI 性能的同时,能缩进我们口袋设备的智能,这正是人工智能成为大众真正伴侣的最快、最确定的道路。现在,AI 将不再位于云端(Cloud),而是在我们身边共同呼吸。”

参考资料

  1. Introducing Gemma 3n: The developer guide - Google Developers
  2. [Gemma 3n model overview Google AI for Developers](https://ai.google.dev/gemma/docs/gemma-3n)
  3. Introducing Gemma 3n: The developer guide - simonwillison.net
  4. Gemma 3n — Google DeepMind
  5. Introducing Gemma 3n: The developer guide – ONMINE
  6. Announcing Gemma 3n preview: powerful, efficient, mobile-first AI
  7. Introducing Gemma 3: The Developer Guide- Google Developers Blog
  8. Gemma 3 介绍:开发者指南 - Google Developers Blog
  9. [Gemma 3 模型概览 Google AI for Developers - Gemini API](https://ai.google.dev/gemma/docs/core)
  10. Gemma 解释:Gemma 3 的新功能 - Google Developers Blog
  11. [Get started with Gemma models Google AI for Developers](https://ai.google.dev/gemma/docs/get_started)
  12. Introducing Gemma 3n: The developer guide - robotics.ee
  13. [Gemma 3n Developer Blog Gemma-3n.net](https://www.gemma-3n.net/blog)
  14. Introducing Gemma 3n: Developer’s Guide - AI SCKOOL

FACT-CHECK SUMMARY

  • Claims checked: 16
  • Claims verified: 16
  • Verdict: PASS
测试你的理解
Q1. 除了文本之外,Gemma 3n 还能理解图像、音频和视频,这一特性称为什么?
  • 通用模型
  • 多模态
  • 多任务
同时处理文字(文本)、视觉(图像、视频)和听觉(音频)信息的能力被称为“多模态”。
Q2. Gemma 3n 为了节省设备的内存和功耗而使用的核心技术之一是什么?
  • MatFormer 结构
  • 云端流式传输
  • 数据无限增殖
MatFormer 是 Gemma 3n 的核心技术,它可以根据情况灵活调节计算量,从而减少内存和功耗。
Q3. Gemma 3n 的技术基础将与安卓或 Chrome 中使用的哪款模型共享?
  • Gemini Ultra
  • Gemini Pro
  • Gemini Nano
Gemma 3n 与将搭载在下一代安卓和 Chrome 中的“Gemini Nano”共享核心设计。