口袋里的 AI 真的睁开了“眼睛”？谷歌力作“Gemma 3”如何改变世界

AI Summary

谷歌 DeepMind 发布的 Gemma 3 是一款具备视觉智能并支持 140 多种语言的高性能开源模型，其轻量且强大的特性使其甚至可以在智能手机上运行。

想象一下。 您在海外旅行时走进了一家陌生的餐厅。菜单上全是看不懂的文字，旁边桌子上看起来很好吃的菜肴甚至叫不出名字。在过去，您可能需要打开翻译应用逐个拍照翻译，或者费力地用手势询问。但现在，您只需拿出手机对着那道菜拍一下，您口袋里的 AI 就会立即识别照片并亲切地解释道：“这是当地的传统菜肴‘普罗旺斯杂烩’。它由番茄和茄子做成，味道非常健康！”而且，它还是用您最熟悉的语言向您介绍。

谷歌 DeepMind (Google DeepMind) 最近发布的全新人工智能模型 “Gemma 3” 描绘的正是这样的未来Gemma 3— 谷歌 DeepMind。Gemma 3 不仅仅是能够阅读文字，它终于拥有了“眼睛”，能够理解全球各地的多种语言，最重要的是，它足够轻巧，可以直接在我们的手持设备上运行。

今天，MindTickleBytes 将为您深入浅出地讲解这位聪明的 AI 伙伴为何如此特别，以及它将如何改变我们的日常生活。

为什么这很重要？ (Why It Matters)

我们熟知的 ChatGPT 或谷歌 Gemini 等 AI 通常在汇集了巨型计算机的数据中心运行。简单来说，AI 的“大脑”位于谷歌或 OpenAI 等公司的总部，我们通过互联网这根长线连接并租用这个大脑。因此，一旦断网就会变得无计可施，而且发送个人照片或文档时，总会难免担心隐私安全。

但 Gemma 3 不同。它作为 “开源模型 (Open Model)” 发布了引入 Gemma 3：功能强大且易于获取的 AI 模型套件。。打个比方， 这就像是向全世界免费公开了秘制配方。开发者可以拿着这个配方，直接雇佣适合自家厨房（设备）的厨师（服务）。也就是说，即使没有互联网连接，也能在自己的笔记本电脑或智能手机上创建专为您服务的“独立型 AI”。

特别是这次 Gemma 3 的发布之所以重要，主要有三个原因：

拥有眼睛的 AI（多模态）：现在它不仅能理解文本，还能同时理解图像Gemma 3 简介：开发者指南 - 谷歌开发者博客。
全球语言大一统：支持包括中文在内的 140 多种语言，让全球沟通无障碍Gemma 3 简介 - Gemma - 谷歌 AI 开发者论坛。
掌上超级计算机：设计极其轻量，在智能手机上也能流畅运行谷歌 DeepMind 发布 Gemma 3：最强大的模型…。

深入浅出 (The Explainer)：Gemma 3 的三大魔法

1. “曾几何时只能阅读文字的 AI，现在开始看照片了”

Gemma 3 最大的变化是其 多模态 (Multimodality) 功能欢迎来到 Gemma 3：谷歌全新的多模态、多语言、长文本…。简单来说，以前如果您问 AI“什么是苹果？”，必须通过文字询问；而现在，您只需展示一张苹果的照片并问“这是什么？”，它就能回答“这是一个看起来很好吃的苹果！”

比喻一下，如果以前的 AI 是一个虽然博览群书但看不见东西的“盲目博士”，那么 Gemma 3 现在就成了拥有视力的“全能专家”。除了看照片，它还能分析照片中复杂的图表，或者根据食材照片即兴提供食谱，能够完成更高维度的任务Gemma 3 简介 - Gemma - 谷歌 AI 开发者论坛。

2. “一次性记住极长的故事”

在向 AI 提问时，如果输入内容太长，它往往会读了后面忘了前面。Gemma 3 大大扩展了记忆力的极限，能够一次性处理高达 128,000 个 Token (128k Tokens) 的海量信息Gemma 3 技术报告 - arXiv.org。

这里的 “Token” 是 AI 理解语言的最小单位，您可以将其理解为单词的片段。128,000 个 Token 是什么概念呢？打个比方，即使您把一整本厚达数百页的小说交给 AI，问它“书中第 50 页主角的行为对结局产生了什么影响？”，它也能对答如流Gemma 3 简介 - Gemma - 谷歌 AI 开发者论坛。

3. “记忆力提升了，但‘大脑’却更轻量了”

通常情况下，需要记忆的信息量增加，AI 的大脑（内存）也会随之占满，导致设备变慢。为了解决这个问题，谷歌引入了一种革命性的结构，减少了 KV 缓存 (KV-cache) 内存 的使用量Gemma 3 技术报告 - arXiv.org。

比喻一下，这就像是不再把所有资料凌乱地铺在桌面上，而是制作了非常系统化的“索引卡”，只在需要时精准调取信息。得益于此，即使在阅读长文档时，它也只会占用极少的电脑或智能手机内存，在降低电池消耗的同时保持了极高的运行速度PDF 版 Gemma 3 技术报告。

现状 (Where We Stand)：四种尺寸的定制化 AI

Gemma 3 根据用户的目的和设备规格提供四种不同的尺寸。这就像选择衣服尺码（S、M、L、XL）一样。

1B（10 亿参数）模型：尺寸最小、速度最快。它是最适合在智能手机或平板电脑上轻快使用的“超轻量”尺寸Gemma 3：谷歌基于 Gemini 2.0 的全新开源模型。
4B（40 亿参数）模型：在性能和速度之间取得了很好的平衡，非常适合在普通笔记本电脑或 PC 上进行多方面的应用欢迎来到 Gemma 3：谷歌全新的多模态、多语言、长文本…。

12B（120 亿参数）模型：在更复杂的推理、数学问题解答等需要专业思维的任务中表现强劲[绕过互联网审查：配置 Gemma 3 和 Qwen 3…

AiManual](https://ai-manual.ru/article/lokalnyie-llm-protiv-internet-tsenzuryi-kak-nastroit-gemma3-i-qwen3-dlya-obhoda-blokirovok/)。

27B（270 亿参数）模型：拥有最强大的性能。它可以执行专家级的任务，在开源模型中处于顶尖水平Gemma 3：谷歌基于 Gemini 2.0 的全新开源模型。

所有这些模型都与谷歌最强大的 AI “Gemini 2.0” 共享相同的技术基因，因此虽然体量小，但实力非常扎实Gemma 3：谷歌基于 Gemini 2.0 的全新开源模型。此外，谷歌还同时发布了监控 AI 避免给出危险或有害答案的安全工具 “ShieldGemma 2”，充分考虑了安全性引入 Gemma 3：功能强大且易于获取的 AI 模型套件。。

未来会怎样？ (What’s Next)

Gemma 3 的出现将从根本上改变我们使用 AI 的方式。AI 不再是云端彼方遥不可及的技术，而是成为您口袋里随时提供帮助的“亲切且聪明的助手”。

许多开发者已经开始利用 Gemma 3 构思创新服务：

即使在没有网络的偏远地区，拍照即可立即翻译的翻译机
通过手机摄像头实时为视障人士描述周围环境的导航服务
无需将包含个人隐私的日记或工作文档发送到外部服务器，仅在个人设备内即可整理信息的个人助手Gemma 3 简介：开发者指南 - 谷歌开发者博客

甚至还有人尝试将其改造为特定领域的专家级 AI，或者进行微调以使其给出更自由的回答Uncensored Gemma 3：回答一切… - YouTube。在谷歌开启的这个“Gemma 宇宙 (Gemmaverse)”中，AI 将超越单纯的工具，成为让我们的生活更加丰富多彩的真正伴侣Gemma 3：谷歌基于 Gemini 2.0 的全新开源模型。

AI 的视角 (AI’s Take)

Gemma 3 极大地加快了大型 AI 技术普及的速度。以前只有投入数万亿元基础设施才能实现的“视觉智能”，现在已经可以在您陈旧的笔记本电脑上运行。当技术不再是少数企业的专利，而是成为所有人的工具时，世界才会迎来更温暖、更有创意的变化。既然个人现在也能拥有属于自己的“视觉 AI”，我很期待未来会有哪些惊人的创意填满我们的日常生活。

参考资料

[绕过互联网审查：配置 Gemma 3 和 Qwen 3…

AiManual](https://ai-manual.ru/article/lokalnyie-llm-protiv-internet-tsenzuryi-kak-nastroit-gemma3-i-qwen3-dlya-obhoda-blokirovok/)

FACT-CHECK SUMMARY

Claims checked: 18
Claims verified: 18
Verdict: PASS

Share this article:

测试你的理解

Q1. 与之前的版本相比，Gemma 3 最核心的变化是什么？

仅仅是速度变快了
新增了同时理解图像和文本的多模态能力
转为了付费服务

Gemma 3 引入了全新的“多模态”功能，将视觉（Vision）与语言（Language）结合，能够同时处理图像和文本。

Q2. Gemma 3 大约支持多少种语言？

10 种左右
50 种左右
140 多种

Gemma 3 为全球各地的用户提供了对 140 多种语言的支持。

Q3. Gemma 3 设计用于在什么环境下运行？

只能在巨大的超级计算机上运行
可以在智能手机或笔记本电脑等个人设备上运行
只能在连接互联网的云端服务器上运行

Gemma 3 设计轻量且高效，可以在工作站、笔记本电脑甚至智能手机上运行。