谷歌推出了 '多标记预测 (MTP)' 技术,在不降低质量的前提下,将 Gemma 4 AI 的回答速度最高提升了 3 倍。
您在使用 ChatGPT 或 Claude 等 AI 时,是否曾因为回答一个字一个字地缓慢出现在屏幕上而感到焦躁?那感觉就像是在与一位虽然聪明但打字极慢的秘书对话。显然他很有头脑,但说话的速度却跟不上思维,这种感觉确实令人心急。
然而,谷歌最近带来了一个令人振奋的消息,有望结束这种无聊的等待。据悉,谷歌的开放型 AI 模型 ‘Gemma 4’ 通过一项名为 ‘多标记预测 (Multi-Token Prediction, MTP)’ 的技术,将回答速度提升了整整 3 倍。加速 Gemma 4:利用多标记预测草稿模型实现更快的推理
这项技术究竟是什么,为何能让 AI 拥有“光速”般的反应?您聪明的伙伴 MindTickleBytes 将为您通俗易懂地解释。
为什么这很重要? (Why It Matters)
我们在使用 AI 时感受到的第一个技术瓶颈就是“速度”。当要求 AI 编写复杂代码或总结长篇报告时,它往往需要思考良久才能生成句子。这个过程在专业术语中被称为 “推理 (Inference)”。简单来说,就是 AI 根据此前学习的内容,生成问题答案的过程。利用多标记预测加速 Gemma 4 - ai.google.dev
速度的提升不仅对急脾气的我们是个好消息,更是 AI 深入走进我们生活的契机:
-
成本大幅降低:AI 给出答案的时间越短,服务器的使用成本就越低。这意味着我们能以更低廉的价格,甚至免费使用性能更强大的 AI 服务,这是非常实在的好处。[谷歌 Gemma 4 MTP 草稿模型:AI 推理速度提升 3 倍 AIToolly](https://aitoolly.com/ai-news/article/2026-05-06-google-boosts-gemma-4-performance-multi-token-prediction-drafters-deliver-3x-faster-inference) - 真正的实时对话成为可能:如果回答能即时呈现,就能实现像真人对话一样的实时翻译或语音助手服务。这种毫无停顿的交流体验,光是想象一下就觉得非常便利。
- 更快地完成复杂任务:对于需要 AI 在内部多次思考和审查的高难度任务,如果单个回答速度加快,整体作业时间也将大幅缩短。Gemma 4 利用多标记预测草稿模型提升 AI 速度
谷歌特别指出,此次更新提升了在各种计算机硬件环境下的性能,这为开发者在智能手机、笔记本电脑等更多设备上开发快速的 AI 应用扫清了障碍。谷歌称多标记预测方法正在加速 Gemma 4 推理
通俗易懂的解释 (The Explainer)
| AI 生成句子的方式原本是将名为 “标记 (Token)” 的单位一个接一个按顺序拼接。标记是 AI 处理文本的最小单位,通常可以理解为单词的碎片。[在 Hugging Face Transformers 中使用 Gemma 4 多标记预测 (MTP) | 谷歌 AI 开发者](https://ai.google.dev/gemma/docs/mtp/mtp) |
传统 AI 在生成“今天天气真……”这句话时,会非常谨慎地逐一思考下一个词应该是“好啊”还是“阴沉”。这种方式被称为“自回归 (Autoregressive)”,由于必须选定一个词才能思考下一个词,速度自然快不起来。利用多标记预测加速 Gemma 4 - ai.google.dev
💡 我们可以这样比喻(厨师与学徒的协作)
想象一下,有一位技术精湛但动作略慢的 “主厨(目标模型)”。这位主厨事无巨细,必须完美处理每一样食材才肯罢休。
这时,一位手脚极快的 “见习学徒(草稿模型)” 加入了进来。虽然学徒技术稍逊,但他非常擅长察言观色,总能猜中下一步需要什么食材。
- 预测(预先准备):见习学徒在厨师开口前,就预判道:“下一步肯定需要洋葱、胡萝卜和盐!”,并一次性将这 3 样食材放在案板上。这就是“预先预测多个标记”的阶段。google/gemma-4-31B-it-assistant · Hugging Face
-
验证(核对确认):主厨扫了一眼案板上的 3 样食材,迅速判断道:“嗯,洋葱和胡萝卜没错,但盐要换成糖。”这比一样样去储藏室取要快得多。(主模型的并行验证)[在 Hugging Face Transformers 中使用 Gemma 4 多标记预测 (MTP) 谷歌 AI 开发者](https://ai.google.dev/gemma/docs/mtp/mtp) - 完成(速度革命):相比厨师自己思考并取用食材,学徒预先备好,厨师只需点头确认“没错,用这个!”,效率显然不可同日而语。
这就是谷歌引入的 “推测性解码 (Speculative Decoding)” 架构的核心。加速 Gemma 4:利用多标记预测草稿模型实现更快的推理 让快速的小模型预先“推测”出多个单词,再由聪明的大模型一次性“验证”,是一种非常聪明的提速方法。
现状 (Where We Stand)
| 谷歌已将这种“多标记预测 (MTP)”草稿模型应用于整个 Gemma 4 家族,特别是体量庞大的 31B(拥有 310 亿参数的模型) 版本。虽然大块头模型通常速度较慢,但得益于这项技术,它现在不仅拥有强大的实力,还兼具了极快的速度。[谷歌 Gemma 4 MTP 草稿模型:AI 推理速度提升 3 倍 | AIToolly](https://aitoolly.com/ai-news/article/2026-05-06-google-boosts-gemma-4-performance-multi-token-prediction-drafters-deliver-3x-faster-inference) |
| 最令人惊讶的是,尽管速度大幅提升,“回答的质量和逻辑思维能力却完全没有受损”。[Gemma 4 中的多标记预测 | daily.dev](https://app.daily.dev/posts/multi-token-prediction-in-gemma-4-p8wqk64sp) 通常提速会导致错误增多或逻辑下降,但谷歌通过学徒与厨师的分工体系完美解决了这一难题。[谷歌发布针对 Gemma 4 的 MTP 草稿模型,推理速度最高提升 3 倍 | claypier](https://claypier.com/en/gemma-4-mtp-drafter-launch/) |
| 实际上,根据某开发者社区的对比,在执行同一项任务时,竞争模型 ‘Qwen’ 用了 22 分钟,而 Gemma 仅用 4 分钟 就完成了任务。在速度方面,Gemma 展现出了绝对的优势。[加速 Gemma 4:利用多标记预测草稿模型实现更快的推理 | Hacker News](https://news.ycombinator.com/item?id=48024540) |
未来展望 (What’s Next)
此次更新标志着 AI 正在从单纯的“聪明”向“实用”阶段进化。如果我们在日常使用的手机应用或网页服务中搭载像 Gemma 4 这样的模型,我们将步入一个“零等待 (Zero Waiting)”的时代——按下按钮即可得到答案。
专家预测,这种“多标记预测”技术未来将成为所有大型 AI 模型的标准配置。谷歌利用多标记预测加速 Gemma 4… 更复杂的助手服务、更智能的编程工具正在加速向我们走来。Gemma 4:通过先进的多标记预测实现更快的 AI 推理…
AI 的视角 (AI’s Take)
MindTickleBytes AI 记者的视角: “AI 思考速度(智能)快于表达速度(界面)而导致体验不佳的时代即将结束。谷歌的这项发布是 AI 自然融入我们生活背景的重要一步。技术速度的提升,意味着用户能够节省更多时间,获得投入到更具创意工作中的‘自由’。Gemma 4 的 3 倍速引擎,将成为通往这种自由的强力助推器。”
参考资料
- Accelerating Gemma 4: faster inference with multi-token prediction drafters
-
[Accelerating Gemma 4: faster inference with multi-token prediction drafters Hacker News](https://news.ycombinator.com/item?id=48024540) -
[Gemma 4 Multi-Token Prediction (MTP) using Hugging Face Transformers Google AI for Developers](https://ai.google.dev/gemma/docs/mtp/mtp) -
[Google Gemma 4 MTP Drafters: 3x Faster AI Inference Speed AIToolly](https://aitoolly.com/ai-news/article/2026-05-06-google-boosts-gemma-4-performance-multi-token-prediction-drafters-deliver-3x-faster-inference) -
[Multi-token-prediction in Gemma 4 daily.dev](https://app.daily.dev/posts/multi-token-prediction-in-gemma-4-p8wqk64sp) -
[Google Releases MTP Drafters for Gemma 4, Boosting Inference Up to 3x claypier](https://claypier.com/en/gemma-4-mtp-drafter-launch/) - google/gemma-4-31B-it-assistant · Hugging Face
- Speed-up Gemma 4 with Multi-Token Prediction - ai.google.dev
- Google Accelerating Gemma 4 with Multi-Token Prediction …
- Gemma 4 Speeds Up AI with Multi-Token Prediction Drafters
- Gemma 4: Faster AI Inference Through Advanced Multi-Token …
- Google says multi-token prediction approach warming up Gemma 4 inference s
FACT-CHECK SUMMARY
- Claims checked: 15
- Claims verified: 15
- Verdict: PASS
- 单标记处理
- 多标记预测 (MTP)
- 量子处理
- 将 AI 的大脑容量扩大 3 倍。
- 由快速的小模型预先预测答案,再由大模型一次性验证。
- 将数据量减少到三分之一。
- 速度变快的同时,质量会下降。
- 质量和逻辑推理能力保持不变。
- 质量比以前提高 50%。