您知道拥有‘眼睛’并入驻电脑的 AI 吗?谷歌的新礼物‘Gemma 3’来了

谷歌 Gemma 3 徽标与连接各种语言及图像数据的现代图形图像
AI Summary

谷歌发布了高性能轻量级 AI 模型‘Gemma 3’,它不仅能理解文本还能理解图像,并支持 140 多种语言,开启了人人都能在自己电脑上运行强大 AI 的时代。

请试着想象一下。 您笔记本电脑里的一个小程序看到您拍的照片后,亲切地建议道:“照片里的花是郁金香。每周浇一次水即可。”无需互联网连接,也无需复杂的注册流程。只需在您的电脑中,就会有一个专门为您服务的聪明助手。

这种科幻电影般的世界比想象中更近了。这要归功于谷歌最近发布的全新人工智能 (AI) 模型 —— ‘Gemma 3’。今天,我们将通俗易懂地为您解释这位聪明的朋友究竟是什么,以及为什么它是改变我们生活的重要消息。

为什么这很重要?

到目前为止,我们使用的 ChatGPT 或谷歌 Gemini 等强大 AI 大多运行在大型数据中心的超级计算机上。当我们提问时,问题会通过互联网飞向远在美国某处的服务器,然后超级计算机计算出的答案再返回给我们。

但 Gemma 系列走的是一条完全不同的道路。谷歌将其称为 ‘开放模型 (Open Model)’,并将核心设计图无条件地向全球开发者公开 [来源标题]。

如果把这比作烹饪,就像是向全国公开了著名餐厅的秘制食谱。得益于此,开发者们可以拿着这份食谱,在自家的厨房 —— 即笔记本电脑或智能手机上,直接制作出优秀的菜肴 (AI 服务)。全球开发者已经下载了之前版本的 Gemma 超过 1 亿次,并在此基础上诞生了超过 6 万个充满个性的变体模型 [来源标题]。这次推出的 Gemma 3 是其中最聪明、本领最大的最新版本 [来源标题]。

轻松理解:Gemma 3 的三大杀手锏

究竟是什么变化让全球科技界如此振奋?让我们来看看 Gemma 3 的三大核心能力。

1. 拥有“眼睛”的 AI:多模态 (Multimodal)

以前的小型 AI 主要只能读写文字。但 Gemma 3 已经完美具备了 多模态 (Multimodal,即同时处理视觉和文本等多种形式信息的能力) 功能 [来源标题]。现在,Gemma 3 不仅能看懂文字,还能直接“看”懂并理解图像数据 [来源标题]。

简单来说,如果以前的 AI 是一个能听广播剧并总结内容的朋友,那么现在的 Gemma 3 就像是一个能陪你看电视并解释每一个画面的朋友。Gemma 3 配备了由约 4 亿个数字组成的特殊“视觉传感器 (SigLIP vision encoder)”,能够准确识别照片中的物体是什么,以及处于什么场景 [来源标题]。

2. 吞象般的“记忆力”

AI 一次能记忆和处理多少信息被称为“上下文窗口 (Context Window)”。Gemma 3 的记忆库非常充裕,高达 128,000 个标记 (Token,词碎片的最小单位) 以上 [来源标题]。

如果您对这个规模没有概念,打个比方:它能一次性读完一本书的内容,并在庞大的信息量中瞬间找到一个极小的细节。例如,如果您给 Gemma 3 看一份数百页复杂的家电说明书并问它:“第 35 页角落里写的注意事项是什么?”它能立即给出准确答案 [来源标题]。

3. 精通 140 种语言的“语言天才”

Gemma 3 能够自由自在地理解和使用全球 140 多种语言 [来源标题]。除了韩语和英语,它还涵盖了我们甚至觉得名字很陌生的各种文化圈语言。这是因为它与谷歌最强大的付费 AI “Gemini 2.0” 共享相同的技术根基,这让它拥有了魔法般的语言能力 [来源标题]。

进展如何:适合不同用途的“定制尺寸”

谷歌精心准备了多种尺寸的 Gemma 3,以便用户根据自己设备的性能进行选择。

  • Gemma 3 270M (超高效模型): 这是专为微型智能家电或简单的助手任务设计的“口袋 AI” [来源标题]。
  • 1B, 4B 模型: 这是在大众化尺寸,即便在普通的智能手机或入门级笔记本电脑上也能流畅运行 [来源标题]。
  • 12B, 27B 模型: 这是性能最强大的模型,供拥有高配置电脑的专家或研究人员执行高难度任务时使用 [来源标题]。

有趣的是,此前“轻量级 AI”市场的绝对霸主是运营 Facebook 的 Meta 公司旗下的“Llama”系列。但随着 Gemma 3 的出现,谷歌正以强力的一击动摇市场格局 [来源标题]。此外,谷歌还同步公开了用于防止 AI 给出危险回答的安全监控装置 ‘ShieldGemma 2’,细致地保障了安全的开发环境 [来源标题]。

未来的展望:我们的生活将如何改变?

Gemma 3 的普及将为我们的生活带来三个实质性的变化。

第一,可以实现彻底的隐私保护。 您不需要将珍贵的家庭照片或私密日记发送到遥远的谷歌服务器。由于所有处理都在您的电脑内部完成,您可以放心使用 AI,无需担心个人信息泄露。

第二,“专为您”的定制助手将层出不穷。 开发者可以基于 Gemma 3 这个坚实的基础,轻松开发出“只懂烹饪食谱的 AI”、“精通我们社区房地产行情的 AI”等。就像之前已经出现了 6 万个变体模型一样,未来超乎想象的新奇服务将来到我们身边。

第三,在没有网络的地方也能使用 AI。 无论是在飞机上处理工作,还是在信号不佳的深山老林,只要您拥有搭载了 Gemma 3 的设备,就能随时获得聪明助手的帮助。

AI 视角:MindTickleBytes AI 记者的一句话

Gemma 3 不仅仅是谷歌推出的一项新技术。它象征着强大的“智能”不再是大企业的专利,而正在成为人人都能揣进兜里的“普适工具”。这个拥有视觉智能的小巨人将如何让我们的日常生活变得更加丰富多彩和便利,真的让人非常期待。

参考资料

  1. Introducing Gemma 3: The Developer Guide - Google Developers Blog
  2. Gemma 3: Google’s new open model based on Gemini 2.0
  3. Google News - Google releases Gemma 3, a new AI model with 270…
  4. Gemma — Google DeepMind
  5. Gemma 3: A Comprehensive Introduction
  6. Gemma 3 Technical Report - arXiv.org
  7. [论文回顾] Gemma 3 Technical Report - Velog
  8. Introducing Gemma 3: A new generation of open models (Gemma 3 介绍: 次世代 …
  9. Gemma 3 Technical Report - cis.lmu.de
  10. [论文回顾] Gemma 3 Technical Report - Google DeepMind 全新轻量化开源模型
  11. Welcome Gemma 3: Google’s all new multimodal, multilingual, long…
  12. Introducing Gemma 3: A Powerful and Accessible AI Model Suite.

FACT-CHECK SUMMARY

  • Claims checked: 14
  • Claims verified: 14
  • Verdict: PASS
测试你的理解
Q1. Gemma 3 的最大特点之一是不仅能处理文本,还能处理图像,这种能力称为什么?
  • 通用模型
  • 多模态 (Multimodal)
  • 超文本
同时理解和处理文本、图像等多种形式数据的能力被称为‘多模态’。
Q2. Gemma 3 一次可以记忆和处理的信息量(上下文窗口)至少是多少?
  • 32,000 标记 (Tokens)
  • 64,000 标记 (Tokens)
  • 128,000 标记 (Tokens)
Gemma 3 可以处理至少 128,000 个标记的长上下文,这意味着它能一次性理解一本书的内容。
Q3. Gemma 3 模型中最轻量、最高效的版本名称是什么?
  • Gemma 3 270M
  • Gemma 3 1B
  • Gemma 3 27B
Gemma 3 270M 是为了特定任务而设计的超高效微型模型。