口袋里的 AI 真的睁开了“眼睛”?谷歌力作“Gemma 3”如何改变世界

融合了谷歌全新的 Gemma 3 标志以及象征多种语言、视觉智能图标的未来感图像
AI Summary

谷歌 DeepMind 发布的 Gemma 3 是一款具备视觉智能并支持 140 多种语言的高性能开源模型,其轻量且强大的特性使其甚至可以在智能手机上运行。

想象一下。 您在海外旅行时走进了一家陌生的餐厅。菜单上全是看不懂的文字,旁边桌子上看起来很好吃的菜肴甚至叫不出名字。在过去,您可能需要打开翻译应用逐个拍照翻译,或者费力地用手势询问。但现在,您只需拿出手机对着那道菜拍一下,您口袋里的 AI 就会立即识别照片并亲切地解释道:“这是当地的传统菜肴‘普罗旺斯杂烩’。它由番茄和茄子做成,味道非常健康!”而且,它还是用您最熟悉的语言向您介绍。

谷歌 DeepMind (Google DeepMind) 最近发布的全新人工智能模型 “Gemma 3” 描绘的正是这样的未来Gemma 3— 谷歌 DeepMind。Gemma 3 不仅仅是能够阅读文字,它终于拥有了“眼睛”,能够理解全球各地的多种语言,最重要的是,它足够轻巧,可以直接在我们的手持设备上运行。

今天,MindTickleBytes 将为您深入浅出地讲解这位聪明的 AI 伙伴为何如此特别,以及它将如何改变我们的日常生活。

为什么这很重要? (Why It Matters)

我们熟知的 ChatGPT 或谷歌 Gemini 等 AI 通常在汇集了巨型计算机的数据中心运行。简单来说,AI 的“大脑”位于谷歌或 OpenAI 等公司的总部,我们通过互联网这根长线连接并租用这个大脑。因此,一旦断网就会变得无计可施,而且发送个人照片或文档时,总会难免担心隐私安全。

但 Gemma 3 不同。它作为 “开源模型 (Open Model)” 发布了引入 Gemma 3:功能强大且易于获取的 AI 模型套件。打个比方, 这就像是向全世界免费公开了秘制配方。开发者可以拿着这个配方,直接雇佣适合自家厨房(设备)的厨师(服务)。也就是说,即使没有互联网连接,也能在自己的笔记本电脑或智能手机上创建专为您服务的“独立型 AI”。

特别是这次 Gemma 3 的发布之所以重要,主要有三个原因:

  1. 拥有眼睛的 AI(多模态):现在它不仅能理解文本,还能同时理解图像Gemma 3 简介:开发者指南 - 谷歌开发者博客
  2. 全球语言大一统:支持包括中文在内的 140 多种语言,让全球沟通无障碍Gemma 3 简介 - Gemma - 谷歌 AI 开发者论坛
  3. 掌上超级计算机:设计极其轻量,在智能手机上也能流畅运行谷歌 DeepMind 发布 Gemma 3:最强大的模型…

深入浅出 (The Explainer):Gemma 3 的三大魔法

1. “曾几何时只能阅读文字的 AI,现在开始看照片了”

Gemma 3 最大的变化是其 多模态 (Multimodality) 功能欢迎来到 Gemma 3:谷歌全新的多模态、多语言、长文本…简单来说,以前如果您问 AI“什么是苹果?”,必须通过文字询问;而现在,您只需展示一张苹果的照片并问“这是什么?”,它就能回答“这是一个看起来很好吃的苹果!”

比喻一下,如果以前的 AI 是一个虽然博览群书但看不见东西的“盲目博士”,那么 Gemma 3 现在就成了拥有视力的“全能专家”。除了看照片,它还能分析照片中复杂的图表,或者根据食材照片即兴提供食谱,能够完成更高维度的任务Gemma 3 简介 - Gemma - 谷歌 AI 开发者论坛

2. “一次性记住极长的故事”

在向 AI 提问时,如果输入内容太长,它往往会读了后面忘了前面。Gemma 3 大大扩展了记忆力的极限,能够一次性处理高达 128,000 个 Token (128k Tokens) 的海量信息Gemma 3 技术报告 - arXiv.org

这里的 “Token” 是 AI 理解语言的最小单位,您可以将其理解为单词的片段。128,000 个 Token 是什么概念呢?打个比方,即使您把一整本厚达数百页的小说交给 AI,问它“书中第 50 页主角的行为对结局产生了什么影响?”,它也能对答如流Gemma 3 简介 - Gemma - 谷歌 AI 开发者论坛

3. “记忆力提升了,但‘大脑’却更轻量了”

通常情况下,需要记忆的信息量增加,AI 的大脑(内存)也会随之占满,导致设备变慢。为了解决这个问题,谷歌引入了一种革命性的结构,减少了 KV 缓存 (KV-cache) 内存 的使用量Gemma 3 技术报告 - arXiv.org

比喻一下,这就像是不再把所有资料凌乱地铺在桌面上,而是制作了非常系统化的“索引卡”,只在需要时精准调取信息。得益于此,即使在阅读长文档时,它也只会占用极少的电脑或智能手机内存,在降低电池消耗的同时保持了极高的运行速度PDF 版 Gemma 3 技术报告

现状 (Where We Stand):四种尺寸的定制化 AI

Gemma 3 根据用户的目的和设备规格提供四种不同的尺寸。这就像选择衣服尺码(S、M、L、XL)一样。

  • 1B(10 亿参数)模型:尺寸最小、速度最快。它是最适合在智能手机或平板电脑上轻快使用的“超轻量”尺寸Gemma 3:谷歌基于 Gemini 2.0 的全新开源模型
  • 4B(40 亿参数)模型:在性能和速度之间取得了很好的平衡,非常适合在普通笔记本电脑或 PC 上进行多方面的应用欢迎来到 Gemma 3:谷歌全新的多模态、多语言、长文本…
  • 12B(120 亿参数)模型:在更复杂的推理、数学问题解答等需要专业思维的任务中表现强劲[绕过互联网审查:配置 Gemma 3 和 Qwen 3… AiManual](https://ai-manual.ru/article/lokalnyie-llm-protiv-internet-tsenzuryi-kak-nastroit-gemma3-i-qwen3-dlya-obhoda-blokirovok/)。
  • 27B(270 亿参数)模型:拥有最强大的性能。它可以执行专家级的任务,在开源模型中处于顶尖水平Gemma 3:谷歌基于 Gemini 2.0 的全新开源模型

所有这些模型都与谷歌最强大的 AI “Gemini 2.0” 共享相同的技术基因,因此虽然体量小,但实力非常扎实Gemma 3:谷歌基于 Gemini 2.0 的全新开源模型。此外,谷歌还同时发布了监控 AI 避免给出危险或有害答案的安全工具 “ShieldGemma 2”,充分考虑了安全性引入 Gemma 3:功能强大且易于获取的 AI 模型套件。

未来会怎样? (What’s Next)

Gemma 3 的出现将从根本上改变我们使用 AI 的方式。AI 不再是云端彼方遥不可及的技术,而是成为您口袋里随时提供帮助的“亲切且聪明的助手”。

许多开发者已经开始利用 Gemma 3 构思创新服务:

  • 即使在没有网络的偏远地区,拍照即可立即翻译的翻译机
  • 通过手机摄像头实时为视障人士描述周围环境的导航服务
  • 无需将包含个人隐私的日记或工作文档发送到外部服务器,仅在个人设备内即可整理信息的个人助手Gemma 3 简介:开发者指南 - 谷歌开发者博客

甚至还有人尝试将其改造为特定领域的专家级 AI,或者进行微调以使其给出更自由的回答Uncensored Gemma 3:回答一切… - YouTube。在谷歌开启的这个“Gemma 宇宙 (Gemmaverse)”中,AI 将超越单纯的工具,成为让我们的生活更加丰富多彩的真正伴侣Gemma 3:谷歌基于 Gemini 2.0 的全新开源模型

AI 的视角 (AI’s Take)

Gemma 3 极大地加快了大型 AI 技术普及的速度。以前只有投入数万亿元基础设施才能实现的“视觉智能”,现在已经可以在您陈旧的笔记本电脑上运行。当技术不再是少数企业的专利,而是成为所有人的工具时,世界才会迎来更温暖、更有创意的变化。既然个人现在也能拥有属于自己的“视觉 AI”,我很期待未来会有哪些惊人的创意填满我们的日常生活。

参考资料

  1. Gemma 3 简介:开发者指南 - 谷歌开发者博客
  2. Gemma 3:谷歌基于 Gemini 2.0 的全新开源模型
  3. Gemma 3 简介 - Gemma - 谷歌 AI 开发者论坛
  4. Gemma 3 技术报告 - arXiv.org
  5. Gemma 3 简介:开发者指南 - engineering.fyi
  6. PDF 版 Gemma 3 技术报告
  7. Gemma (语言模型) - 维基百科
  8. 欢迎来到 Gemma 3:谷歌全新的多模态、多语言、长文本…
  9. Gemma 3— 谷歌 DeepMind
  10. Uncensored Gemma 3:回答一切… - YouTube
  11. [绕过互联网审查:配置 Gemma 3 和 Qwen 3… AiManual](https://ai-manual.ru/article/lokalnyie-llm-protiv-internet-tsenzuryi-kak-nastroit-gemma3-i-qwen3-dlya-obhoda-blokirovok/)
  12. 谷歌 DeepMind 发布 Gemma 3:最强大的模型…
  13. TechRojak:Gemma 3 简介:轻量级 AI 的未来…
  14. 引入 Gemma 3:功能强大且易于获取的 AI 模型套件。

FACT-CHECK SUMMARY

  • Claims checked: 18
  • Claims verified: 18
  • Verdict: PASS
测试你的理解
Q1. 与之前的版本相比,Gemma 3 最核心的变化是什么?
  • 仅仅是速度变快了
  • 新增了同时理解图像和文本的多模态能力
  • 转为了付费服务
Gemma 3 引入了全新的“多模态”功能,将视觉(Vision)与语言(Language)结合,能够同时处理图像和文本。
Q2. Gemma 3 大约支持多少种语言?
  • 10 种左右
  • 50 种左右
  • 140 多种
Gemma 3 为全球各地的用户提供了对 140 多种语言的支持。
Q3. Gemma 3 设计用于在什么环境下运行?
  • 只能在巨大的超级计算机上运行
  • 可以在智能手机或笔记本电脑等个人设备上运行
  • 只能在连接互联网的云端服务器上运行
Gemma 3 设计轻量且高效,可以在工作站、笔记本电脑甚至智能手机上运行。