与 AI 聊天的时代？谷歌 Gemini 开始说得更像人类了

AI Summary

谷歌升级了 Gemini 2.5 原生音频模型，使原本像机器人一样的 AI 声音变得像人类一样自然，并大幅增强了实时对话功能。

想象一下。在异国他乡的咖啡馆里，你与一位初次见面的当地人相对而坐。尽管你们完全不懂彼此的语言，但只需每人戴上一只耳机，就能像相识多年的老友一样自然地聊天。当你用中文问“这附近最好吃的甜点是什么？”时，对方耳中会立即响起自然的当地语言。当对方笑着回答时，你的耳边也会传来亲切的中文声音。

这听起来像是科幻电影中的场景，但现在它正大步走进我们的日常生活。谷歌最近宣布，已对其人工智能（AI）模型 Gemini 的“听觉”和“声音”进行了划时代的升级。改进的 Gemini 音频模型带来强大的语音交互体验这不仅仅是声音变好听了一点。现在，AI 能更深层地理解我们的语言，带着人类特有的微妙情感进行回答，甚至只需通过声音就能帮我们处理复杂的任务。今天，我们将作为您的向导，为您一一解读这些惊人的变化将如何改变我们的生活。

为什么这很重要？

事实上，到目前为止我们所经历的 AI 声音总感觉有些“机器人”味。无论是说“重新规划路线”的导航系统，还是客服中心的自动应答，句子的结尾总是硬邦邦的，缺乏情感。这是为什么呢？简单来说，是因为现有的技术是 AI“朗读”文本（文字）的方式。在将文字转化为声音的过程中，人类对话特有的韵律感和情感被磨灭了。

但这次升级的 Gemini 2.5 原生音频（Native Audio，AI 直接将声音理解为数据的技术） 模型则从根本上有所不同。正如“原生”这个词所象征的，该模型不再需要经历将声音转换为文字再进行解释的繁琐过程。它直接倾听声音本身，并捕捉其中的细微差别。改进的 Gemini 音频模型带来强大的语音交互体验

打个比方，这就像是一个只能一行行读乐谱勉强演奏的新手，与一个一听到音乐就能捕捉到感动并即兴演奏的“天才音乐家”之间的区别。正因如此，现在的 Gemini 能察觉到我们说话时夹杂的轻微叹息、犹豫的呼吸声，甚至是语调的微妙变化。回答时的呼吸节奏也变得自然得多。增强的 Gemini 音频模型驱动更强大的语音功能…

通俗易懂：有哪些变化？

此次更新的核心变化可以概括为以下三个方面：

1. “像真人一样充满情感地说话”

谷歌大幅增强了 Gemini 2.5 Flash 和 Pro 模型的 TTS（Text-to-Speech，文字转语音） 功能。现在，AI 能根据句子的语境自动调节语速。例如，在紧急情况下语速会稍快一些，而在需要安慰的情况下则会变得平稳缓慢。此外，在为包含多个角色的童话书朗读时，它还能根据每个角色的个性进行生动的表演。谷歌变革语音 AI：Gemini 2.5 文字转语音模型… 谷歌 DeepMind 的研究人员评价称，这是“AI 语音向人类领域迈进的一大步”。谷歌变革语音 AI：Gemini 2.5 文字转语音模型…

2. “被中途打断也不会慌张”

回想一下我们与朋友聊天时的场景。在对方话还没说完时，我们可能会随声附和，或者想到什么好奇的事就中途提问。以前的 AI 必须默默等待自己把话说完。但现在，Gemini 具备了 多轮对话（Multi-turn conversation） 能力，即使被中途打断或插话，也能自然地做出反应并继续对话。谷歌 Gemini 音频升级比听起来更宏大：意味着什么… 对话流程像流水一样顺畅，让人感觉真的像是在和人对面聊天。改进的 Gemini 音频模型带来强大的语音交互体验

3. “动动嘴就能自动运行应用”

稍微专业一点的术语叫 函数调用（Function Calling），这项功能得到了加强。简单来说，就是 AI 听取我的声音并实际执行“动作”的能力。打个比方，就像对聪明的秘书说“明天早上 7 点叫醒我”，秘书就会直接设定好闹钟。即使在比以前更复杂、有噪音干扰的环境中，它也能准确理解用户的指令并执行手机的功能。谷歌 Gemini 音频升级比听起来更宏大：意味着什么…

现状：在哪里可以使用？

这些惊人的技术已经开始应用在我们身边的服务中。

谷歌翻译（Google Translate）：现在，佩戴耳机即可使用实时语音翻译功能。改进的 Gemini 音频模型带来强大的语音交互体验在国外旅游问路或在餐厅点餐时，你将体验到语言障碍消失的神奇时刻。增强的 Gemini 模型助力强大的语音交互
Gemini Live：这是在智能手机上与 AI 进行实时语音对话的服务。现在，你可以用更亲切、更自然的声音进行烦恼咨询或询问复杂的知识。谷歌 Gemini 音频升级比听起来更宏大：意味着什么…
商业现场：企业正在利用通过谷歌云提供的 API（应用程序编程接口）构建更精密的 AI 客服。即使是申请贷款或产品咨询这样复杂的业务，现在 AI 也能用温柔的声音提供帮助。增强的 Gemini 语音模型提升互动音频能力

在性能方面，数据也令人惊叹。Gemini 2.5 原生音频模型在综合评估语音助手能力的“ComplexFuncBenchAudio”基准测试中获得了 71.5% 的高分。改进的 Gemini 音频模型带来强大的语音交互体验这意味着 AI 已经准备好超越简单的对话，去执行现实生活中的复杂指令。

未来会怎样？

谷歌的这一举措不仅是创造一个“口才好的 AI”，还将为我们生活的各个领域带来巨大的浪潮。

教育领域：现在 AI 导师可以实时听取我的发音并像母语者一样进行纠正。这相当于拥有了一个能根据学习者水平调节语速的亲切的 1:1 私教。增强的 Gemini 模型助力强大的语音交互
旅游及服务业：因语言不通而经历的诸多不便将会消失。在酒店大堂或机场服务台，员工在 AI 的帮助下与全球任何人顺畅沟通的场景将成为常态。增强的 Gemini 模型助力强大的语音交互

当然，AI 目前还不完美。71.5% 的分数固然优秀，但反过来说，仍有约 28.5% 的失误可能。改进的 Gemini 音频模型带来强大的语音交互体验但从技术发展的速度来看，也许不久之后，我们就能在与 AI 结束对话后，送上一句充满赞美的话：“你真像人一样温暖！”

AI 的视角

此次更新的重大意义在于，AI 突破了“文本”这一狭窄的框架，开始直接感知“声音”这个更广阔、更立体的世界。我们期待这一打破语言障碍、缩小技术与人之间心理距离的变化，能让我们的生活变成一个更加紧密连接且温暖的空间。

参考资料

事实核查摘要

核查项目：15
已验证项目：15
结论：通过

Share this article:

测试你的理解

Q1. 此次更新为谷歌翻译应用增加了哪项核心功能？

将文本转换为图像
通过耳机进行实时语音翻译
离线词典功能

谷歌在翻译应用中引入了使用耳机的实时语音对语音翻译功能。

Q2. Gemini 2.5 原生音频模型在评估复杂任务执行能力的基准测试中获得了多少分？

50.5%
61.5%
71.5%

升级后的模型在 ComplexFuncBenchAudio 基准测试中获得了 71.5% 的分数。

Q3. 以下哪项不是 Gemini 2.5 文字转语音 (TTS) 模型的新特点？

实现不同角色的对话
可以调节语速
完全感受不到情感的机械音

此次更新使 AI 声音更具人情味，实现了自然的语速调节和丰富多彩的对话形式。