谷歌升级了 Gemini 2.5 原生音频模型,使原本像机器人一样的 AI 声音变得像人类一样自然,并大幅增强了实时对话功能。
想象一下。在异国他乡的咖啡馆里,你与一位初次见面的当地人相对而坐。尽管你们完全不懂彼此的语言,但只需每人戴上一只耳机,就能像相识多年的老友一样自然地聊天。当你用中文问“这附近最好吃的甜点是什么?”时,对方耳中会立即响起自然的当地语言。当对方笑着回答时,你的耳边也会传来亲切的中文声音。
这听起来像是科幻电影中的场景,但现在它正大步走进我们的日常生活。谷歌最近宣布,已对其人工智能(AI)模型 Gemini 的“听觉”和“声音”进行了划时代的升级。改进的 Gemini 音频模型带来强大的语音交互体验 这不仅仅是声音变好听了一点。现在,AI 能更深层地理解我们的语言,带着人类特有的微妙情感进行回答,甚至只需通过声音就能帮我们处理复杂的任务。今天,我们将作为您的向导,为您一一解读这些惊人的变化将如何改变我们的生活。
为什么这很重要?
事实上,到目前为止我们所经历的 AI 声音总感觉有些“机器人”味。无论是说“重新规划路线”的导航系统,还是客服中心的自动应答,句子的结尾总是硬邦邦的,缺乏情感。这是为什么呢?简单来说,是因为现有的技术是 AI“朗读”文本(文字)的方式。在将文字转化为声音的过程中,人类对话特有的韵律感和情感被磨灭了。
但这次升级的 Gemini 2.5 原生音频(Native Audio,AI 直接将声音理解为数据的技术) 模型则从根本上有所不同。正如“原生”这个词所象征的,该模型不再需要经历将声音转换为文字再进行解释的繁琐过程。它直接倾听声音本身,并捕捉其中的细微差别。改进的 Gemini 音频模型带来强大的语音交互体验
打个比方,这就像是一个只能一行行读乐谱勉强演奏的新手,与一个一听到音乐就能捕捉到感动并即兴演奏的“天才音乐家”之间的区别。正因如此,现在的 Gemini 能察觉到我们说话时夹杂的轻微叹息、犹豫的呼吸声,甚至是语调的微妙变化。回答时的呼吸节奏也变得自然得多。增强的 Gemini 音频模型驱动更强大的语音功能…
通俗易懂:有哪些变化?
此次更新的核心变化可以概括为以下三个方面:
1. “像真人一样充满情感地说话”
谷歌大幅增强了 Gemini 2.5 Flash 和 Pro 模型的 TTS(Text-to-Speech,文字转语音) 功能。现在,AI 能根据句子的语境自动调节语速。例如,在紧急情况下语速会稍快一些,而在需要安慰的情况下则会变得平稳缓慢。此外,在为包含多个角色的童话书朗读时,它还能根据每个角色的个性进行生动的表演。谷歌变革语音 AI:Gemini 2.5 文字转语音模型… 谷歌 DeepMind 的研究人员评价称,这是“AI 语音向人类领域迈进的一大步”。谷歌变革语音 AI:Gemini 2.5 文字转语音模型…
2. “被中途打断也不会慌张”
回想一下我们与朋友聊天时的场景。在对方话还没说完时,我们可能会随声附和,或者想到什么好奇的事就中途提问。以前的 AI 必须默默等待自己把话说完。但现在,Gemini 具备了 多轮对话(Multi-turn conversation) 能力,即使被中途打断或插话,也能自然地做出反应并继续对话。谷歌 Gemini 音频升级比听起来更宏大:意味着什么… 对话流程像流水一样顺畅,让人感觉真的像是在和人对面聊天。改进的 Gemini 音频模型带来强大的语音交互体验
3. “动动嘴就能自动运行应用”
稍微专业一点的术语叫 函数调用(Function Calling),这项功能得到了加强。简单来说,就是 AI 听取我的声音并实际执行“动作”的能力。打个比方,就像对聪明的秘书说“明天早上 7 点叫醒我”,秘书就会直接设定好闹钟。即使在比以前更复杂、有噪音干扰的环境中,它也能准确理解用户的指令并执行手机的功能。谷歌 Gemini 音频升级比听起来更宏大:意味着什么…
现状:在哪里可以使用?
这些惊人的技术已经开始应用在我们身边的服务中。
- 谷歌翻译(Google Translate):现在,佩戴耳机即可使用实时语音翻译功能。改进的 Gemini 音频模型带来强大的语音交互体验 在国外旅游问路或在餐厅点餐时,你将体验到语言障碍消失的神奇时刻。增强的 Gemini 模型助力强大的语音交互
- Gemini Live:这是在智能手机上与 AI 进行实时语音对话的服务。现在,你可以用更亲切、更自然的声音进行烦恼咨询或询问复杂的知识。谷歌 Gemini 音频升级比听起来更宏大:意味着什么…
- 商业现场:企业正在利用通过谷歌云提供的 API(应用程序编程接口)构建更精密的 AI 客服。即使是申请贷款或产品咨询这样复杂的业务,现在 AI 也能用温柔的声音提供帮助。增强的 Gemini 语音模型提升互动音频能力
在性能方面,数据也令人惊叹。Gemini 2.5 原生音频模型在综合评估语音助手能力的“ComplexFuncBenchAudio”基准测试中获得了 71.5% 的高分。改进的 Gemini 音频模型带来强大的语音交互体验 这意味着 AI 已经准备好超越简单的对话,去执行现实生活中的复杂指令。
未来会怎样?
谷歌的这一举措不仅是创造一个“口才好的 AI”,还将为我们生活的各个领域带来巨大的浪潮。
- 教育领域:现在 AI 导师可以实时听取我的发音并像母语者一样进行纠正。这相当于拥有了一个能根据学习者水平调节语速的亲切的 1:1 私教。增强的 Gemini 模型助力强大的语音交互
- 旅游及服务业:因语言不通而经历的诸多不便将会消失。在酒店大堂或机场服务台,员工在 AI 的帮助下与全球任何人顺畅沟通的场景将成为常态。增强的 Gemini 模型助力强大的语音交互
当然,AI 目前还不完美。71.5% 的分数固然优秀,但反过来说,仍有约 28.5% 的失误可能。改进的 Gemini 音频模型带来强大的语音交互体验 但从技术发展的速度来看,也许不久之后,我们就能在与 AI 结束对话后,送上一句充满赞美的话:“你真像人一样温暖!”
AI 的视角
此次更新的重大意义在于,AI 突破了“文本”这一狭窄的框架,开始直接感知“声音”这个更广阔、更立体的世界。我们期待这一打破语言障碍、缩小技术与人之间心理距离的变化,能让我们的生活变成一个更加紧密连接且温暖的空间。
参考资料
- 改进的 Gemini 音频模型带来强大的语音交互体验
- 谷歌 Gemini 音频升级比听起来更宏大:意味着什么…
- 改进的 Gemini 音频模型带来强大的语音交互体验
- 改进的 Gemini 音频模型带来强大的语音交互体验
- 增强的 Gemini 音频模型驱动更强大的语音功能…
- 改进的 Gemini 音频模型带来强大的语音交互体验
- 增强的 Gemini 模型助力强大的语音交互
- Gemini 音频模型升级语音交互 - theoutpost.ai
- 增强的 Gemini 语音模型提升互动音频能力
- 谷歌变革语音 AI:Gemini 2.5 文字转语音模型…
- 利用 Gemini Live API 构建更强大的语音代理
事实核查摘要
- 核查项目:15
- 已验证项目:15
- 结论:通过
- 将文本转换为图像
- 通过耳机进行实时语音翻译
- 离线词典功能
- 50.5%
- 61.5%
- 71.5%
- 实现不同角色的对话
- 可以调节语速
- 完全感受不到情感的机械音