AI 甚至能读懂我声音中的‘细微差别’？谷歌 Gemini 音频模型更新全解析

AI Summary

谷歌更新了 Gemini 2.5 音频模型，通过无需经过文本转换而直接理解声音的‘原生音频’技术，实现了更接近人类的实时对话和精细的语音服务。

想象一下：你正站在一个陌生国家熙熙攘攘的火车站中心。看不懂指示牌，列车时间临近，内心焦急万分。慌乱中你掏出智能手机，用颤抖的声音问道：“那个，请问去市政厅最快的方法是什么？”

这时，AI 就像站在身边的朋友一样立即回答道：“啊，您现在一定很慌张吧？别担心。去旁边的 2 号站台，5 分钟后到站的快车可以直接到市政厅！”

这不仅是生硬的机器音。它读懂了你急促语气中的情绪，并据此提供了既沉着又迅速的信息。这样的场景已不再是科幻电影的一幕，而是即将成为我们面对的日常生活。

谷歌最近宣布大幅强化了其人工智能模型 Gemini 的音频能力。Improved Gemini audio models for powerful voice interactions 此次更新不仅仅是让声音变得更好听，更是完全革新了 AI “听取、理解并回答”声音的方式。今天，让我们一起看看这项将深入改变我们生活的聪明技术究竟是什么。

为什么这很重要？

此前，我们在与 AI 对话时总能感觉到一种微妙的“违和感”。这是因为 AI 在处理我们的语音时必须经过复杂的步骤。

传统方式是这样的：首先将我们说的话转换为文字（STT，语音转文本）；接着 AI 阅读并理解这些文字后，再以文字形式写出回答；最后再将文字转换回机器的声音（TTS，文本转语音）。简单来说，中间夹杂了两次“翻译官”。在这个过程中，不可避免地会出现对话断断续续的延迟，而我们声音中包含的情感或细微颤抖等“纹理”也往往消失殆尽。

然而，作为此次更新核心的“原生音频 (Native Audio)”模型则完全跳过了这些复杂的中间步骤。Improved Gemini audio models for powerful voice interactions 这种无需中间环节直接理解和生成声音的方式，为我们带来了三大变化：

如真实对话般的速度：对话之间的尴尬停顿消失了，可以像与人交流一样顺畅沟通。
语言障碍的彻底瓦解：通过谷歌翻译应用和耳机，实现与外国人实时无障碍对话的环境正在开启。Improved Gemini audio models for powerful voice interactions
更聪明的处理能力：对于复杂指令的领悟和执行变得更加敏锐和迅速。

轻松理解：音频模型的进化

1. 读乐谱的 AI vs 直接听演奏的 AI

举个例子吧。如果说传统的语音 AI 是“看着乐谱唱歌的人”，那么这次更新的 Gemini 2.5 原生音频模型就如同“用耳朵直接听音乐并融入情感歌唱的歌手”。Enhanced Gemini Audio Models Drive More Powerful Voice Experiences

由于它跳过了转换为文字的步骤，直接处理声波 (Waveform) 本身，因此能够捕捉说话者的语调、语速，甚至背景噪音的语境。Improved Gemini audio models for powerful voice experiences 得益于此，用户将获得更加个性化、契合情境的体验。Transforming Voice Experiences: The Power of Enhanced Gemini

2. 听觉更灵敏的私人秘书

想象一下吩咐秘书办事。以前如果你说“帮我定明天上午 9 点的闹钟，再告诉我 10 点会议的地点”，AI 有时只能记住一项，或者给出风马牛不相及的回答。但现在，Gemini 2.5 Flash 模型的“指令遵循率（执行任务的准确度）”已从原先的 84% 提升至 90%。Improved Gemini audio models for powerful voice interactions

此外，在衡量 AI 执行复杂命令能力的测试 (ComplexFuncBench Audio) 中，它也获得了 71.5% 的高分。这证明了它不仅回答得好，实际处理工作的能力也取得了飞跃式的发展。Improved Gemini audio models for powerful voice interactions

现状：哪里可以使用？

谷歌已经将这一强大引擎快速应用到我们身边的服务中：

谷歌翻译 (Google Translate)：现在不仅可以通过应用，还可以通过耳机使用实时语音翻译功能。Improved Gemini audio models for powerful voice interactions 这在海外旅行时与酒店或餐厅员工交流会非常有帮助。Enhanced Gemini Models Boost Powerful Voice Interactions
Gemini Live：在智能手机上与 Gemini 直接聊天时，你会发现反应比以前更自然、更迅速。Google’s Gemini Audio Upgrade Is Bigger Than It Sounds: What …
面向开发者的创新工具：开发者也可以通过 Google AI Studio 等平台使用该模型。这意味着未来将有更多、更智能的语音服务诞生。Build More Powerful Voice Agents with the Gemini Live API Google’s upgraded Gemini 2.5 Flash Native Audio model makes AI more …

特别值得一提的是，此次还包含了“录音室级别”的语音转换技术，甚至可以实现多人对话般的多种角色配音。Google Gemini 2.5 Text-to-Speech Update — Studio-Quality Voice …

未来展望

谷歌专家塔拉·赛纳斯 (Tara Sainath) 提出了一个非常有趣的展望。随着 AI 模型变得越来越聪明、越来越快，核心将不再仅仅是软件，而是“与硬件的协调”。Improved Gemini audio models for powerful voice interactions

打个比方，即使拥有顶级的超级跑车发动机（AI 模型），如果轮胎或道路状况（硬件）跟不上，也无法发挥其性能。智能手机的麦克风结构、处理声音信号的芯片 (DSP) 等物理设备与 AI 神经网络的结合程度，将决定语音 AI 的真正实力。

教育领域的变革也将令人瞩目。实时听取我的发音并像外教一样予以纠正，或者根据我的水平进行对话教学的“AI 导师”，将更贴近我们的生活。Enhanced Gemini Models Boost Powerful Voice Interactions

AI 视角

MindTickleBytes AI 记者视角

此次 Gemini 音频更新的意义远不止于“增加了新功能”，而是“人工智能感官的延伸”。人工智能摘下了名为“文本”的眼镜，开始如实听取世界的各种声音，这意味着机器与人类之间最后的“尴尬隔阂”正在瓦解。我们正跨越向机器下达“指令”的时代，大步迈入与 AI 进行真正“对话”的新纪元。

参考资料

事实核查总结

核查项：16
已验证：16
结论：通过 (PASS)

Share this article:

测试你的理解

Q1. 通过此次更新，Gemini 2.5 Flash 原生音频模型达到的‘指令遵循率’是多少？

84%
90%
71.5%

更新前为 84% 的指令遵循率通过此次改进提升到了 90%。

Q2. 谷歌翻译应用中最新强化的功能是什么？

拍照翻译
实时语音翻译
整站翻译

得益于 Gemini 2.5 音频模型的改进，谷歌翻译应用和耳机现在可以使用更强大的实时语音翻译功能。

Q3. 哪位专家强调了 AI 在理解声音时硬件与神经网络协同的重要性？

塔拉·赛纳斯 (Tara Sainath)
杰弗里·辛顿 (Geoffrey Hinton)
萨姆·奥特曼 (Sam Altman)

谷歌的塔拉·赛纳斯强调，随着模型速度的提升，麦克风结构、硬件限制条件与神经网络的协调变得愈发重要。