谷歌推出了全新的编码器-解码器 AI 模型‘T5Gemma’系列,摆脱了传统的‘只读型’AI 结构,能够更深入地理解、总结信息,甚至可以识别图像。
前言:AI 的“两种”思考方式
想象一下,你面前放着一份晦涩难懂的长篇英文报告。如果你需要将这份内容翻译成中文,或者用一句话进行总结,你会怎么做?
大多数人可能会先仔细“阅读并理解”整个报告,然后根据核心内容在脑海中进行整理,最后“输出”新的句子。但有趣的是,到目前为止我们使用的像 ChatGPT 这样的大多数最新 AI,在这一过程中与其说是“深度阅读”,不如说更侧重于统计学上对下一个单词的“预测”。
最近,谷歌回归初心,发布了旨在最大限度提高深度理解和整理信息能力的全新 AI 模型系列——“T5Gemma”。T5Gemma:全新的编码器-解码器 Gemma 模型集合 为什么谷歌要放下目前流行的方式,重新拾起“经典结构”?我们的日常生活会因此发生什么变化?让我们像听好朋友讲解一样,一一解开这些疑问。
为什么这很重要? (Why It Matters)
我们使用的 AI 性能取决于其“设计图纸”,即架构(Architecture,AI 的结构化设计)。近几年,“仅解码器(Decoder-only)”结构成为了主流。因为它擅长让语句如流水般衔接,非常适合话匣子式的聊天机器人。
然而,谷歌此次推出的 T5Gemma 复兴了“编码器-解码器(Encoder-Decoder,将接收信息并理解含义的部分与据此输出结果的部分分开的结构)”方式。谷歌发布 T5Gemma,重新点燃架构之战!
简单来说,如果之前的 AI 关注的是“接下来该说什么?”,那么这种新结构则被设计为先思考“对方说的话真实含义是什么?”。打个比方,它比起口若悬河的演说家,更像是一位能听完对方的话并抓住核心要点的严谨专家。这种结构在以下任务中表现尤为出色:
- 精准翻译:在完美把握整个句子的前后语境后再进行翻译。
- 核心总结:在海量信息中挑选真正重要核心的能力卓越。
- 推理与回答:更深层地把握问题的潜藏意图,给出逻辑性的回答。
这意味着,超越单纯能言善辩的 AI,“能够正确把握并整理内容的聪明 AI”时代再次开启了。揭秘 T5Gemma:谷歌全新的编码器-解码器 Gemma 模型
轻松理解:“阅读大脑”与“说话大脑”的协作
让我们用更形象的比喻来解释 T5Gemma 核心的“编码器-解码器”结构。
如果说目前主流的仅解码器模型是“能通过观察前面的单词完美猜出下一个单词的优秀小说家”,那么这次的 T5Gemma 则更像是“在完美理解专业内容后编写清晰报告的资深研究员”。T5Gemma:全新的编码器-解码器 Gemma 模型集合
在这里,编码器会仔细审视我们提供的信息,并将其“含义”制作为精密的数字地图。然后,解码器根据这张地图找到准确的目的地(正确答案),并生成新的句子。由于两个部分明确分工,在理解复杂语境方面效率更高。Gemma — Google DeepMind
“适应”的魔力 (Adaptation)
令人惊讶的是,谷歌并非从零开始完全新建了这款模型。他们采用了已经验证过性能的现有“仅解码器”模型(Gemma 2 或 Gemma 3),通过一种名为“适应(Adaptation,根据特定目的转换模型)”的特殊技术,将其变身为编码器-解码器结构。T5Gemma:全新的编码器-解码器 Gemma 模型集合
比喻来说,这类似于对一名习惯用右手的厨师进行特殊训练,使其也能熟练使用左手,从而重生成为一名能够灵活运用双手的“左右开弓大厨”。为此,谷歌使用了约 2 万亿 (2T) 个海量数据碎片(UL2 tokens)进行训练,并重新排布了它们的大脑结构。T5Gemma 2:看得更清、读得更透、理解更久
当前现状:体积更小却更聪明?
到了最新版本 T5Gemma 2,技术更进一步。它不再仅仅停留在阅读文字的水平,而是具备了“看得见、读得懂、理解得更久(Seeing, Reading, and Understanding Longer)”的全能本领。T5Gemma 2:看得更清、读得更透、理解更久
T5Gemma 2 的主要特点总结如下:
- 睁开眼的 AI (Vision capabilities):现在不仅能看文本,还能看复杂的图像或图表,把握其内容进行解释或回答问题。T5Gemma 2:下一代编码器-解码器模型
- 瘦身成功 (Efficiency):应用了编码器和解码器共享重复信息的“绑定嵌入(tied embeddings)”技术。得益于此,性能反而更强了,却成功将 AI 的体重(参数量,Parameters)减轻了 10.5%。T5Gemma 2:谷歌编码器-解码器的复兴… - Banandre
- 长难句也不在话下 (Long-context):它继承了即使面对长达数百页的文章或文档也能从头到尾不丢掉逻辑进行理解的能力。编码器-解码器与 Byte LLM:T5Gemma 2 与 AI2 的新模型
此外,还应用了提高信息处理速度的 GQA (分组查询注意力) 以及更准确把握单词位置关系的 RoPE (旋转位置嵌入) 等最新技术,最大限度地提高了处理效率。T5Gemma - Hugging Face
未来会怎样? (What’s Next)
T5Gemma 系列的出现预示着我们日常使用的 App 将变得更轻量、更聪明。
以往的超大型模型因为过于沉重,必须经过巨大的数据中心,这一过程耗费了大量成本和能源。但像 T5Gemma 2 这样紧凑(Compact)且强大的模型,可以在我们手中的智能手机或笔记本电脑中流畅运行。T5Gemma 2:下一代编码器-解码器模型
特别是其自然跨越多种语言的多语言支持 (Multilingual support) 能力得到了大幅强化。预计不久的将来,无论在世界何地,任何人都能便捷地享受到更准确翻译和总结任何语言文档的服务。T5Gemma 2:看得更清、读得更透、理解更久
AI 的视角 (AI’s Take)
在 MindTickleBytes 的 AI 记者看来,T5Gemma 就像是“流行是个轮回”这句话的 AI 版本。谷歌没有盲目追求花哨的新鲜事物,而是用现代压倒性的技术实力重新诠释了过去优秀的结构,这种最大限度提高实用性的策略非常高明。
这不仅仅局限于技术变革。未来,如果我们智能手机里的 AI 助手能读懂我拍的照片里的信息,并在短短 3 秒内完美总结复杂的办公文档,那么其背后的功臣,便是这开始专注于“理解”的“编码器-解码器”的复兴。与其说 AI 变得更聪明,不如说它变得更能“听懂话”了。
参考资料
- T5Gemma:全新的编码器-解码器 Gemma 模型集合
- Gemma — Google DeepMind
- T5Gemma:全新的编码器-解码器 Gemma 模型集合 (Engineering.fyi)
- T5Gemma 2:看得更清、读得更透、理解更久 (Arxiv PDF)
- T5Gemma · Hugging Face
- 谷歌发布 T5Gemma,重新点燃架构之战!
- T5Gemma 革新 LLM 效率:编码器-解码器如何…
- T5Gemma 2:谷歌编码器-解码器的复兴… - Banandre
- T5Gemma 2:下一代编码器-解码器模型 (Google Blog)
- T5Gemma 2:看得更清、读得更透、理解更久 (Arxiv Abstract)
- 揭秘 T5Gemma:谷歌全新的编码器-解码器 Gemma 模型
- T5Gemma - Hugging Face (Main Doc)
-
[T5Gemma 将如何改变编码器-解码器模型? Analytics India Mag](https://analyticsindiamag.com/ai-news-updates/google-launches-t5gemma-to-reclaim-encoder-decoder-architecture-benefits/) - 编码器-解码器与 Byte LLM:T5Gemma 2 与 AI2 的新模型
FACT-CHECK SUMMARY
- Claims checked: 21
- Claims verified: 21
- Verdict: PASS
- GPT-4
- Gemma 2 和 Gemma 3
- Llama 3
- 减少了数据大小
- 编码器和解码器共享相同的信息(绑定嵌入 tied embeddings)
- 放弃了语言支持
- 音乐作曲能力
- 能够看图并阅读的视觉能力(Vision)
- 游戏竞技能力