谷歌强化了 Gemini 2.5 和 3.1 模型的“原生音频”功能,提供超越机械音、能像真人一样进行复杂对话的创新语音体验。
AI 终于找到了“真正的声音”
想象一下。 在陌生外国城市的咖啡馆里,你想点餐却因语言不通而感到困窘。这时你拿出手机向 AI 寻求帮助。而这个 AI 不再像以前那样用僵硬的机械音朗读句子,而是像身边的朋友一样,以自然的语调和语速替你交流。甚至它还能实时翻译对方的回答,那会是怎样的体验?
根据 增强的 Gemini 音频模型驱动更强大的语音体验 的报道,谷歌 DeepMind 对 Gemini 模型的音频功能进行了大幅升级,使用户能够享受更加自然和强大的语音体验。现在,AI 正在超越单纯将文本转换为声音的阶段,步入直接处理声音数据而无需转换过程的“原生音频 (Native Audio)”时代。
为什么这很重要?
我们在日常生活中通过声音交流时,传达的不只是单词。根据说话的速度、语调以及对话的语境,相同的单词可能具有完全不同的含义。以往的 AI 语音更接近于将文字转为声音的“朗读 (TTS)”方式,很难体现这种微妙的教养。
然而,通过这次更新,Gemini 具备了像人一样对话的能力。正如 改进的 Gemini 音频模型带来强大的语音交互 中提到的,升级后的 Gemini 2.5 原生音频模型提供了实时翻译和更强大的语音助手 (Live Agent) 功能。
这些变化将彻底改变我们的日常生活:
-
更智能的在线购物:在购物网站上,你可以与 AI 客服像与店员聊天一样自然地对话并挑选商品。[Gemini 2.5 Flash 原生音频:AI 语音交互 ](https://supermaker.ai/voice/gemini-flash-native-audio/) 解释说,这将创造出更加直观和自然的购物体验。 - 搜索的演进:现在无需在搜索框中打字,只要用语言询问疑惑,AI 就会直接理解声音并寻找最佳答案。据 谷歌 Gemini 发布原生音频模型以增强搜索体验 报道,谷歌正通过强化“搜索现场 (Search Live)”功能来将这种体验变为现实。
轻松理解:什么是“原生音频”?
为了通俗地理解这项技术,可以将其类比为“看谱识曲”与“现场演奏”的区别。
以前的 AI 方式就像看着乐谱(文本)机械地一个音符一个音符按琴键。相比之下,原生音频方式就像演奏者直接感受音乐的情感和节奏进行即兴演奏。因为它直接理解声音而无需中间步骤(文本转换),所以能够实现更加生动和丰富的表达。简单来说,AI 不仅理解了语言,还理解了“声音的神韵”。
谷歌特别推出了两款强大的模型:
- Gemini 3.1 Flash Live:谷歌提供的最高质量音频模型,在实时对话中表现出无缝且可靠的性能。Gemini 3.1 Flash Live:谷歌最新的 AI 音频模型
- Gemini 2.5 Flash & Pro:这些模型可以产生宛如在录音棚录制的高质量语音。尤其令人惊讶的是其“多角色对话 (Multi-character dialogue)”功能。根据 谷歌 Gemini 2.5 文本转语音更新 —— 录音棚级音质 … 的介绍,AI 可以自然地演练多个人物轮流说话的对话场景。就像一名配音演员完美分饰多角的广播剧一样。
现状:AI 的“听力能力”考试成绩如何?
为了确认 AI 听懂话语并处理复杂任务的能力,专家们让其参加名为“ComplexFuncBenchAudio”的测试。这可以看作是“AI 版的高考听力评价”。升级后的 Gemini 2.5 原生音频模型在此项测试中获得了 71.5% 的高分。改进的 Gemini 音频模型带来强大的语音交互 这意味着 AI 不仅仅是能听懂话的水平,其准确理解并执行复杂业务指令的能力也得到了显著提升。
此外,这一全新的音频模型已在多个平台上活跃。据 改进的 Gemini 音频模型带来强大的语音交互 报道,目前开发者可以在“谷歌 AI Studio”和“Vertex AI”中使用该模型,并且它正逐步应用于面向普通用户的“Gemini Live”和“Search Live”。
结合生成视觉成果的工具“Nano Banana Pro”模型等谷歌其他 AI 工具,正提供更加丰满的多媒体体验。Gemini 2.5 Flash 原生音频带来更自然、更智能的体验
未来展望:AI 蜕变为对话伙伴
谷歌的这些举措将使 AI 更深入地渗透进我们的日常生活。现在,我们或许不再将 AI 视为冰冷的“搜索工具”,而是将其视为温暖的“对话伙伴”。
开发者可以通过“Gemini Live API”创建属于自己的强大语音助手,利用 Gemini Live API 构建更强大的语音智能体;通过谷歌翻译应用,我们将体验到几乎感觉不到语言障碍的高水平实时翻译服务。改进的 Gemini 音频模型带来强大的语音交互
此外,谷歌在 Gemini 2.5 模型中引入了被称为“深度思考 (Deep Think)”的新推理模式,改进了 AI 使其不仅能回答问题,还能进行更深入的权衡和逻辑思考。谷歌表示 Gemini 2.5 模型正通过深度思考变得更好
最终,未来的 AI 将成为可靠的助手,能从我们的语调中读出微妙的情感,给出最合适的回答,并能利落地处理各种复杂任务。
MindTickleBytes AI 记者的视角
谷歌此次更新展示了 AI 向人类领域——“情感交流”又迈进了一步。机器不仅能理解人类的话语,连语气和韵味都在向人靠拢,这在带来便利的同时,也让我们对与技术建立的关系产生了新的思考。现在,声音不再只是简单的输入手段(接口),而是 AI 与我们建立情感联系最强大的工具。也许在不久的将来,我们仅凭声音就能想起 AI 的“性格”?
参考资料
- Gemini 2.5 原生音频升级,及文本转语音模型
- Gemini 3.1 Flash Live:谷歌最新的 AI 音频模型
- 谷歌 Gemini 发布原生音频模型以增强搜索体验
- Gemini 2.5 Flash 原生音频带来更自然、更智能的体验
- Gemini 2.5:我们最智能的模型正变得更好
- 改进的 Gemini 音频模型带来强大的语音交互
- 谷歌表示 Gemini 2.5 模型正通过深度思考变得更好
-
[Gemini 2.5 Flash 原生音频:AI 语音交互 ](https://supermaker.ai/voice/gemini-flash-native-audio/) -
[谷歌 Gemini 的声音即将发生翻天覆地的变化 Android](https://www.androidcentral.com/apps-software/google-gemini-is-about-to-sound-totally-different) - 改进的 Gemini 音频模型带来强大的语音交互
- 改进的 Gemini 音频模型带来强大的语音交互
- 增强的 Gemini 音频模型驱动更强大的语音体验
- 改进的 Gemini 音频模型带来强大的语音交互
- 谷歌 Gemini 2.5 文本转语音更新 —— 录音棚级音质 …
- 利用 Gemini Live API 构建更强大的语音智能体
事实核查摘要
- 核查声明:15
- 验证声明:14
- 结论:通过 (PASS)
- Gemini 2.0
- Gemini 3.1 Flash Live
- Gemini Nano
- 50.5%
- 61.5%
- 71.5%
- 多角色对话 (Multi-character dialogue)
- 实时语音翻译
- 预读用户想法并回答