与 AI 像朋友一样聊天的时代?谷歌 Gemini 的声音正变得更像“真人”

用户通过智能手机与 AI 自然对话,背景融合了语音波形的图像
AI Summary

谷歌强化了 Gemini 2.5 和 3.1 模型的“原生音频”功能,提供超越机械音、能像真人一样进行复杂对话的创新语音体验。

AI 终于找到了“真正的声音”

想象一下。 在陌生外国城市的咖啡馆里,你想点餐却因语言不通而感到困窘。这时你拿出手机向 AI 寻求帮助。而这个 AI 不再像以前那样用僵硬的机械音朗读句子,而是像身边的朋友一样,以自然的语调和语速替你交流。甚至它还能实时翻译对方的回答,那会是怎样的体验?

根据 增强的 Gemini 音频模型驱动更强大的语音体验 的报道,谷歌 DeepMind 对 Gemini 模型的音频功能进行了大幅升级,使用户能够享受更加自然和强大的语音体验。现在,AI 正在超越单纯将文本转换为声音的阶段,步入直接处理声音数据而无需转换过程的“原生音频 (Native Audio)”时代。

为什么这很重要?

我们在日常生活中通过声音交流时,传达的不只是单词。根据说话的速度、语调以及对话的语境,相同的单词可能具有完全不同的含义。以往的 AI 语音更接近于将文字转为声音的“朗读 (TTS)”方式,很难体现这种微妙的教养。

然而,通过这次更新,Gemini 具备了像人一样对话的能力。正如 改进的 Gemini 音频模型带来强大的语音交互 中提到的,升级后的 Gemini 2.5 原生音频模型提供了实时翻译和更强大的语音助手 (Live Agent) 功能。

这些变化将彻底改变我们的日常生活:

  • 更智能的在线购物:在购物网站上,你可以与 AI 客服像与店员聊天一样自然地对话并挑选商品。[Gemini 2.5 Flash 原生音频:AI 语音交互 ](https://supermaker.ai/voice/gemini-flash-native-audio/) 解释说,这将创造出更加直观和自然的购物体验。
  • 搜索的演进:现在无需在搜索框中打字,只要用语言询问疑惑,AI 就会直接理解声音并寻找最佳答案。据 谷歌 Gemini 发布原生音频模型以增强搜索体验 报道,谷歌正通过强化“搜索现场 (Search Live)”功能来将这种体验变为现实。

轻松理解:什么是“原生音频”?

为了通俗地理解这项技术,可以将其类比为“看谱识曲”“现场演奏”的区别。

以前的 AI 方式就像看着乐谱(文本)机械地一个音符一个音符按琴键。相比之下,原生音频方式就像演奏者直接感受音乐的情感和节奏进行即兴演奏。因为它直接理解声音而无需中间步骤(文本转换),所以能够实现更加生动和丰富的表达。简单来说,AI 不仅理解了语言,还理解了“声音的神韵”。

谷歌特别推出了两款强大的模型:

  1. Gemini 3.1 Flash Live:谷歌提供的最高质量音频模型,在实时对话中表现出无缝且可靠的性能。Gemini 3.1 Flash Live:谷歌最新的 AI 音频模型
  2. Gemini 2.5 Flash & Pro:这些模型可以产生宛如在录音棚录制的高质量语音。尤其令人惊讶的是其“多角色对话 (Multi-character dialogue)”功能。根据 谷歌 Gemini 2.5 文本转语音更新 —— 录音棚级音质 … 的介绍,AI 可以自然地演练多个人物轮流说话的对话场景。就像一名配音演员完美分饰多角的广播剧一样。

现状:AI 的“听力能力”考试成绩如何?

为了确认 AI 听懂话语并处理复杂任务的能力,专家们让其参加名为“ComplexFuncBenchAudio”的测试。这可以看作是“AI 版的高考听力评价”。升级后的 Gemini 2.5 原生音频模型在此项测试中获得了 71.5% 的高分。改进的 Gemini 音频模型带来强大的语音交互 这意味着 AI 不仅仅是能听懂话的水平,其准确理解并执行复杂业务指令的能力也得到了显著提升。

此外,这一全新的音频模型已在多个平台上活跃。据 改进的 Gemini 音频模型带来强大的语音交互 报道,目前开发者可以在“谷歌 AI Studio”和“Vertex AI”中使用该模型,并且它正逐步应用于面向普通用户的“Gemini Live”和“Search Live”。

结合生成视觉成果的工具“Nano Banana Pro”模型等谷歌其他 AI 工具,正提供更加丰满的多媒体体验。Gemini 2.5 Flash 原生音频带来更自然、更智能的体验

未来展望:AI 蜕变为对话伙伴

谷歌的这些举措将使 AI 更深入地渗透进我们的日常生活。现在,我们或许不再将 AI 视为冰冷的“搜索工具”,而是将其视为温暖的“对话伙伴”。

开发者可以通过“Gemini Live API”创建属于自己的强大语音助手,利用 Gemini Live API 构建更强大的语音智能体;通过谷歌翻译应用,我们将体验到几乎感觉不到语言障碍的高水平实时翻译服务。改进的 Gemini 音频模型带来强大的语音交互

此外,谷歌在 Gemini 2.5 模型中引入了被称为“深度思考 (Deep Think)”的新推理模式,改进了 AI 使其不仅能回答问题,还能进行更深入的权衡和逻辑思考。谷歌表示 Gemini 2.5 模型正通过深度思考变得更好

最终,未来的 AI 将成为可靠的助手,能从我们的语调中读出微妙的情感,给出最合适的回答,并能利落地处理各种复杂任务。

MindTickleBytes AI 记者的视角

谷歌此次更新展示了 AI 向人类领域——“情感交流”又迈进了一步。机器不仅能理解人类的话语,连语气和韵味都在向人靠拢,这在带来便利的同时,也让我们对与技术建立的关系产生了新的思考。现在,声音不再只是简单的输入手段(接口),而是 AI 与我们建立情感联系最强大的工具。也许在不久的将来,我们仅凭声音就能想起 AI 的“性格”?

参考资料

  1. Gemini 2.5 原生音频升级,及文本转语音模型
  2. Gemini 3.1 Flash Live:谷歌最新的 AI 音频模型
  3. 谷歌 Gemini 发布原生音频模型以增强搜索体验
  4. Gemini 2.5 Flash 原生音频带来更自然、更智能的体验
  5. Gemini 2.5:我们最智能的模型正变得更好
  6. 改进的 Gemini 音频模型带来强大的语音交互
  7. 谷歌表示 Gemini 2.5 模型正通过深度思考变得更好
  8. [Gemini 2.5 Flash 原生音频:AI 语音交互 ](https://supermaker.ai/voice/gemini-flash-native-audio/)
  9. [谷歌 Gemini 的声音即将发生翻天覆地的变化 Android](https://www.androidcentral.com/apps-software/google-gemini-is-about-to-sound-totally-different)
  10. 改进的 Gemini 音频模型带来强大的语音交互
  11. 改进的 Gemini 音频模型带来强大的语音交互
  12. 增强的 Gemini 音频模型驱动更强大的语音体验
  13. 改进的 Gemini 音频模型带来强大的语音交互
  14. 谷歌 Gemini 2.5 文本转语音更新 —— 录音棚级音质 …
  15. 利用 Gemini Live API 构建更强大的语音智能体

事实核查摘要

  • 核查声明:15
  • 验证声明:14
  • 结论:通过 (PASS)
测试你的理解
Q1. 谷歌发布的模型中,被誉为“最高质量音频模型”的是哪一个?
  • Gemini 2.0
  • Gemini 3.1 Flash Live
  • Gemini Nano
谷歌解释称,Gemini 3.1 Flash Live 是用于自然且可靠的实时对话的最高质量音频模型。
Q2. 升级后的 Gemini 2.5 原生音频模型在基准测试 (ComplexFuncBenchAudio) 中获得了多少分?
  • 50.5%
  • 61.5%
  • 71.5%
Gemini 2.5 原生音频模型在该基准测试中获得了 71.5% 的分数,证明了性能的提升。
Q3. 以下哪项不是此次更新中新增的语音功能?
  • 多角色对话 (Multi-character dialogue)
  • 实时语音翻译
  • 预读用户想法并回答
多角色对话和实时翻译功能是此次更新的核心,但不包括预读用户想法的功能。