与 AI 聊天的时代?谷歌 Gemini 开始说得更像人类了

象征人类与 AI 自然对话的温馨氛围插图
AI Summary

谷歌升级了 Gemini 2.5 原生音频模型,使原本像机器人一样的 AI 声音变得像人类一样自然,并大幅增强了实时对话功能。

想象一下。在异国他乡的咖啡馆里,你与一位初次见面的当地人相对而坐。尽管你们完全不懂彼此的语言,但只需每人戴上一只耳机,就能像相识多年的老友一样自然地聊天。当你用中文问“这附近最好吃的甜点是什么?”时,对方耳中会立即响起自然的当地语言。当对方笑着回答时,你的耳边也会传来亲切的中文声音。

这听起来像是科幻电影中的场景,但现在它正大步走进我们的日常生活。谷歌最近宣布,已对其人工智能(AI)模型 Gemini 的“听觉”和“声音”进行了划时代的升级。改进的 Gemini 音频模型带来强大的语音交互体验 这不仅仅是声音变好听了一点。现在,AI 能更深层地理解我们的语言,带着人类特有的微妙情感进行回答,甚至只需通过声音就能帮我们处理复杂的任务。今天,我们将作为您的向导,为您一一解读这些惊人的变化将如何改变我们的生活。

为什么这很重要?

事实上,到目前为止我们所经历的 AI 声音总感觉有些“机器人”味。无论是说“重新规划路线”的导航系统,还是客服中心的自动应答,句子的结尾总是硬邦邦的,缺乏情感。这是为什么呢?简单来说,是因为现有的技术是 AI“朗读”文本(文字)的方式。在将文字转化为声音的过程中,人类对话特有的韵律感和情感被磨灭了。

但这次升级的 Gemini 2.5 原生音频(Native Audio,AI 直接将声音理解为数据的技术) 模型则从根本上有所不同。正如“原生”这个词所象征的,该模型不再需要经历将声音转换为文字再进行解释的繁琐过程。它直接倾听声音本身,并捕捉其中的细微差别。改进的 Gemini 音频模型带来强大的语音交互体验

打个比方,这就像是一个只能一行行读乐谱勉强演奏的新手,与一个一听到音乐就能捕捉到感动并即兴演奏的“天才音乐家”之间的区别。正因如此,现在的 Gemini 能察觉到我们说话时夹杂的轻微叹息、犹豫的呼吸声,甚至是语调的微妙变化。回答时的呼吸节奏也变得自然得多。增强的 Gemini 音频模型驱动更强大的语音功能…

通俗易懂:有哪些变化?

此次更新的核心变化可以概括为以下三个方面:

1. “像真人一样充满情感地说话”

谷歌大幅增强了 Gemini 2.5 Flash 和 Pro 模型的 TTS(Text-to-Speech,文字转语音) 功能。现在,AI 能根据句子的语境自动调节语速。例如,在紧急情况下语速会稍快一些,而在需要安慰的情况下则会变得平稳缓慢。此外,在为包含多个角色的童话书朗读时,它还能根据每个角色的个性进行生动的表演。谷歌变革语音 AI:Gemini 2.5 文字转语音模型… 谷歌 DeepMind 的研究人员评价称,这是“AI 语音向人类领域迈进的一大步”。谷歌变革语音 AI:Gemini 2.5 文字转语音模型…

2. “被中途打断也不会慌张”

回想一下我们与朋友聊天时的场景。在对方话还没说完时,我们可能会随声附和,或者想到什么好奇的事就中途提问。以前的 AI 必须默默等待自己把话说完。但现在,Gemini 具备了 多轮对话(Multi-turn conversation) 能力,即使被中途打断或插话,也能自然地做出反应并继续对话。谷歌 Gemini 音频升级比听起来更宏大:意味着什么… 对话流程像流水一样顺畅,让人感觉真的像是在和人对面聊天。改进的 Gemini 音频模型带来强大的语音交互体验

3. “动动嘴就能自动运行应用”

稍微专业一点的术语叫 函数调用(Function Calling),这项功能得到了加强。简单来说,就是 AI 听取我的声音并实际执行“动作”的能力。打个比方,就像对聪明的秘书说“明天早上 7 点叫醒我”,秘书就会直接设定好闹钟。即使在比以前更复杂、有噪音干扰的环境中,它也能准确理解用户的指令并执行手机的功能。谷歌 Gemini 音频升级比听起来更宏大:意味着什么…

现状:在哪里可以使用?

这些惊人的技术已经开始应用在我们身边的服务中。

在性能方面,数据也令人惊叹。Gemini 2.5 原生音频模型在综合评估语音助手能力的“ComplexFuncBenchAudio”基准测试中获得了 71.5% 的高分。改进的 Gemini 音频模型带来强大的语音交互体验 这意味着 AI 已经准备好超越简单的对话,去执行现实生活中的复杂指令。

未来会怎样?

谷歌的这一举措不仅是创造一个“口才好的 AI”,还将为我们生活的各个领域带来巨大的浪潮。

当然,AI 目前还不完美。71.5% 的分数固然优秀,但反过来说,仍有约 28.5% 的失误可能。改进的 Gemini 音频模型带来强大的语音交互体验 但从技术发展的速度来看,也许不久之后,我们就能在与 AI 结束对话后,送上一句充满赞美的话:“你真像人一样温暖!”

AI 的视角

此次更新的重大意义在于,AI 突破了“文本”这一狭窄的框架,开始直接感知“声音”这个更广阔、更立体的世界。我们期待这一打破语言障碍、缩小技术与人之间心理距离的变化,能让我们的生活变成一个更加紧密连接且温暖的空间。

参考资料

  1. 改进的 Gemini 音频模型带来强大的语音交互体验
  2. 谷歌 Gemini 音频升级比听起来更宏大:意味着什么…
  3. 改进的 Gemini 音频模型带来强大的语音交互体验
  4. 改进的 Gemini 音频模型带来强大的语音交互体验
  5. 增强的 Gemini 音频模型驱动更强大的语音功能…
  6. 改进的 Gemini 音频模型带来强大的语音交互体验
  7. 增强的 Gemini 模型助力强大的语音交互
  8. Gemini 音频模型升级语音交互 - theoutpost.ai
  9. 增强的 Gemini 语音模型提升互动音频能力
  10. 谷歌变革语音 AI:Gemini 2.5 文字转语音模型…
  11. 利用 Gemini Live API 构建更强大的语音代理

事实核查摘要

  • 核查项目:15
  • 已验证项目:15
  • 结论:通过
测试你的理解
Q1. 此次更新为谷歌翻译应用增加了哪项核心功能?
  • 将文本转换为图像
  • 通过耳机进行实时语音翻译
  • 离线词典功能
谷歌在翻译应用中引入了使用耳机的实时语音对语音翻译功能。
Q2. Gemini 2.5 原生音频模型在评估复杂任务执行能力的基准测试中获得了多少分?
  • 50.5%
  • 61.5%
  • 71.5%
升级后的模型在 ComplexFuncBenchAudio 基准测试中获得了 71.5% 的分数。
Q3. 以下哪项不是 Gemini 2.5 文字转语音 (TTS) 模型的新特点?
  • 实现不同角色的对话
  • 可以调节语速
  • 完全感受不到情感的机械音
此次更新使 AI 声音更具人情味,实现了自然的语速调节和丰富多彩的对话形式。