与 AI 像朋友一样聊天的时代？谷歌 Gemini 的声音正变得更像“真人”

AI Summary

谷歌强化了 Gemini 2.5 和 3.1 模型的“原生音频”功能，提供超越机械音、能像真人一样进行复杂对话的创新语音体验。

AI 终于找到了“真正的声音”

想象一下。 在陌生外国城市的咖啡馆里，你想点餐却因语言不通而感到困窘。这时你拿出手机向 AI 寻求帮助。而这个 AI 不再像以前那样用僵硬的机械音朗读句子，而是像身边的朋友一样，以自然的语调和语速替你交流。甚至它还能实时翻译对方的回答，那会是怎样的体验？

根据增强的 Gemini 音频模型驱动更强大的语音体验的报道，谷歌 DeepMind 对 Gemini 模型的音频功能进行了大幅升级，使用户能够享受更加自然和强大的语音体验。现在，AI 正在超越单纯将文本转换为声音的阶段，步入直接处理声音数据而无需转换过程的“原生音频 (Native Audio)”时代。

为什么这很重要？

我们在日常生活中通过声音交流时，传达的不只是单词。根据说话的速度、语调以及对话的语境，相同的单词可能具有完全不同的含义。以往的 AI 语音更接近于将文字转为声音的“朗读 (TTS)”方式，很难体现这种微妙的教养。

然而，通过这次更新，Gemini 具备了像人一样对话的能力。正如改进的 Gemini 音频模型带来强大的语音交互中提到的，升级后的 Gemini 2.5 原生音频模型提供了实时翻译和更强大的语音助手 (Live Agent) 功能。

这些变化将彻底改变我们的日常生活：

更智能的在线购物：在购物网站上，你可以与 AI 客服像与店员聊天一样自然地对话并挑选商品。[Gemini 2.5 Flash 原生音频：AI 语音交互

](https://supermaker.ai/voice/gemini-flash-native-audio/) 解释说，这将创造出更加直观和自然的购物体验。

搜索的演进：现在无需在搜索框中打字，只要用语言询问疑惑，AI 就会直接理解声音并寻找最佳答案。据谷歌 Gemini 发布原生音频模型以增强搜索体验报道，谷歌正通过强化“搜索现场 (Search Live)”功能来将这种体验变为现实。

轻松理解：什么是“原生音频”？

为了通俗地理解这项技术，可以将其类比为“看谱识曲”与“现场演奏”的区别。

以前的 AI 方式就像看着乐谱（文本）机械地一个音符一个音符按琴键。相比之下，原生音频方式就像演奏者直接感受音乐的情感和节奏进行即兴演奏。因为它直接理解声音而无需中间步骤（文本转换），所以能够实现更加生动和丰富的表达。简单来说，AI 不仅理解了语言，还理解了“声音的神韵”。

谷歌特别推出了两款强大的模型：

Gemini 3.1 Flash Live：谷歌提供的最高质量音频模型，在实时对话中表现出无缝且可靠的性能。Gemini 3.1 Flash Live：谷歌最新的 AI 音频模型
Gemini 2.5 Flash & Pro：这些模型可以产生宛如在录音棚录制的高质量语音。尤其令人惊讶的是其“多角色对话 (Multi-character dialogue)”功能。根据谷歌 Gemini 2.5 文本转语音更新 —— 录音棚级音质 … 的介绍，AI 可以自然地演练多个人物轮流说话的对话场景。就像一名配音演员完美分饰多角的广播剧一样。

现状：AI 的“听力能力”考试成绩如何？

为了确认 AI 听懂话语并处理复杂任务的能力，专家们让其参加名为“ComplexFuncBenchAudio”的测试。这可以看作是“AI 版的高考听力评价”。升级后的 Gemini 2.5 原生音频模型在此项测试中获得了 71.5% 的高分。改进的 Gemini 音频模型带来强大的语音交互这意味着 AI 不仅仅是能听懂话的水平，其准确理解并执行复杂业务指令的能力也得到了显著提升。

此外，这一全新的音频模型已在多个平台上活跃。据改进的 Gemini 音频模型带来强大的语音交互报道，目前开发者可以在“谷歌 AI Studio”和“Vertex AI”中使用该模型，并且它正逐步应用于面向普通用户的“Gemini Live”和“Search Live”。

结合生成视觉成果的工具“Nano Banana Pro”模型等谷歌其他 AI 工具，正提供更加丰满的多媒体体验。Gemini 2.5 Flash 原生音频带来更自然、更智能的体验

未来展望：AI 蜕变为对话伙伴

谷歌的这些举措将使 AI 更深入地渗透进我们的日常生活。现在，我们或许不再将 AI 视为冰冷的“搜索工具”，而是将其视为温暖的“对话伙伴”。

开发者可以通过“Gemini Live API”创建属于自己的强大语音助手，利用 Gemini Live API 构建更强大的语音智能体；通过谷歌翻译应用，我们将体验到几乎感觉不到语言障碍的高水平实时翻译服务。改进的 Gemini 音频模型带来强大的语音交互

此外，谷歌在 Gemini 2.5 模型中引入了被称为“深度思考 (Deep Think)”的新推理模式，改进了 AI 使其不仅能回答问题，还能进行更深入的权衡和逻辑思考。谷歌表示 Gemini 2.5 模型正通过深度思考变得更好

最终，未来的 AI 将成为可靠的助手，能从我们的语调中读出微妙的情感，给出最合适的回答，并能利落地处理各种复杂任务。

MindTickleBytes AI 记者的视角

谷歌此次更新展示了 AI 向人类领域——“情感交流”又迈进了一步。机器不仅能理解人类的话语，连语气和韵味都在向人靠拢，这在带来便利的同时，也让我们对与技术建立的关系产生了新的思考。现在，声音不再只是简单的输入手段（接口），而是 AI 与我们建立情感联系最强大的工具。也许在不久的将来，我们仅凭声音就能想起 AI 的“性格”？

参考资料

Gemini 2.5 原生音频升级，及文本转语音模型
Gemini 3.1 Flash Live：谷歌最新的 AI 音频模型
谷歌 Gemini 发布原生音频模型以增强搜索体验
Gemini 2.5 Flash 原生音频带来更自然、更智能的体验
Gemini 2.5：我们最智能的模型正变得更好
改进的 Gemini 音频模型带来强大的语音交互
谷歌表示 Gemini 2.5 模型正通过深度思考变得更好
[Gemini 2.5 Flash 原生音频：AI 语音交互 ](https://supermaker.ai/voice/gemini-flash-native-audio/)

[谷歌 Gemini 的声音即将发生翻天覆地的变化

Android](https://www.androidcentral.com/apps-software/google-gemini-is-about-to-sound-totally-different)

事实核查摘要

核查声明：15
验证声明：14
结论：通过 (PASS)

Share this article:

测试你的理解

Q1. 谷歌发布的模型中，被誉为“最高质量音频模型”的是哪一个？

Gemini 2.0
Gemini 3.1 Flash Live
Gemini Nano

谷歌解释称，Gemini 3.1 Flash Live 是用于自然且可靠的实时对话的最高质量音频模型。

Q2. 升级后的 Gemini 2.5 原生音频模型在基准测试 (ComplexFuncBenchAudio) 中获得了多少分？

50.5%
61.5%
71.5%

Gemini 2.5 原生音频模型在该基准测试中获得了 71.5% 的分数，证明了性能的提升。

Q3. 以下哪项不是此次更新中新增的语音功能？

多角色对话 (Multi-character dialogue)
实时语音翻译
预读用户想法并回答

多角色对话和实时翻译功能是此次更新的核心，但不包括预读用户想法的功能。