与 AI 聊天,现在会变得更像真人吗?谷歌 Gemini 2.5 令人惊叹的音频进化

象征 AI 与人类自然对话的温馨氛围插画
AI Summary

谷歌 Gemini 2.5 通过从一开始就理解并生成声音的“原生音频”功能,实现了像人一样自然的对话和精细的语音生成。

想象一下。 在一个陌生外国城市繁忙的咖啡馆里,你想点餐,但菜单很陌生,话到嘴边却说不出来,这种尴尬的时刻。这时你拿出智能手机开始对话。它不仅仅是翻译句子并生硬地读出来。这个 AI 察觉到了我声音中细微的颤抖和急迫,用平静的声音安抚我。然后,就像身边的资深翻译员在耳边低语一样,以完全符合情境的自然语调与店员继续交流。

这种电影般的情节,通过谷歌最新的 AI 模型 Gemini 2.5,正大步迈向我们的日常生活。谷歌最近发布了 Gemini 2.5,并宣布在人工智能听和说的方式上实现了巨大的技术跨越 Advanced audio dialog and generation with Gemini 2.5

为什么这很重要?

现有的 AI 语音服务实际上就像是“翻译员们的接力赛”。当我们说话时,1 号选手将其记录为文本(STT,语音转文本),2 号选手分析该文本并创建回答,然后 3 号选手再将该回答读成声音(TTS,文本转语音)。

这种“接力赛”方式有一个致命的弱点:每当选手之间传递接力棒时,信息都会丢失一点点。声音中所包含的悲伤或喜悦等情感、想要强调的部分的细微差别,甚至周围充满活力的噪音等宝贵的“语境”,在转换为文本的过程中都蒸发掉了。

但 Gemini 2.5 不同。谷歌提出了一个大胆的愿景,即该模型未来将创造一个 “与 AI 交互就像与他人交谈一样自然” 的世界 Google Launches Gemini 2.5 with Audio Upgrades - C# Corner。现在,AI 开始直接理解和生成声音,而无需中间阶段。

轻松理解:“原生音频”的秘密

Gemini 2.5 的核心在于 “原生(Native)多模态” 设计 Advanced audio dialog and generation with Gemini 2.5

1. 真正能听见声音的 AI

这里的 多模态(Multimodal,同时处理多种形式信息的能力),其原理就像人能用眼睛看(图像)、用耳朵听(音频)、读文字(文本)一样。Gemini 2.5 从设计阶段开始,就被赋予了不仅能直接理解和生成文本、图像、视频、代码,还能直接处理“音频”的能力 Advanced audio dialog and generation with Gemini 2.5

打个比方:

传统 AI:看着乐谱逐个读出音符名称来唱歌的人(通过文字学习音乐) Gemini 2.5:原封不动地聆听传来的旋律,并带着那种感觉和感触进行即兴演奏的音乐家(通过身体感受音乐)

2. 像说话一样聊天的实时对话

谷歌通过 Gemini 2.5 大幅强化了实时对话能力。这不再仅仅是我们提出问题、然后枯燥地等待 AI 回答的方式。它能够把握对话的流程和语境,在中间打断对方的话或自然地随声附和,实现了像人与人之间“聊天”一样的交互 Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

Gemini 2.5 的“音频家族”

Gemini 2.5 模型系列由两个根据使用目的具有不同优势的模型组成 Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality …

  • Gemini 2.5 Pro:可以看作是“百科全书般的教授”。它拥有最顶尖的智能,在复杂的编程或逻辑推理能力方面表现卓越。在音频领域也展示了最高水平的深度分析性能。
  • Gemini 2.5 Flash:可以理解为“行动敏捷的秘书”。顾名思义,它既快速又轻便。最适合像实时对话这样哪怕 0.1 秒的延迟都会显得尴尬、需要即时反应的服务。
特别是开发者现在可以通过“Gemini Live API”,轻松地在自己的应用中实现质量惊人、仿佛与真人对话般的音频功能 [Gemini 2.5 Flash with Gemini Live API Generative AI on Vertex AI …](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)。

我们的日常生活即刻发生的变化

在我们的日常生活中,最先能感受到的变化就是 谷歌翻译(Google Translate) 应用。得益于 Gemini 2.5 改进的音频模型,应用内实时翻译对话的功能变得更加流畅和强大 Improved Gemini audio models for powerful voice interactions

此外,感兴趣的开发者或早期采用者可以在 Google AI Studio 中预览以下功能 Advanced audio dialog and generation with Gemini 2.5

  • 原生音频对话:可以通过 Flash 模型测试与 AI 交换语言的速度有多快。
  • 可控语音生成 (TTS):这是一项精细的功能,可以根据用户想要的特定细微差别或情感风格来创建语音。

为了安全透明 AI 的承诺

惊人的技术伴随着相应的责任。随着 AI 能够像人一样说话,人们对可能出现的滥用(例如:模仿他人声音的深度伪造语音)的担忧也在增加。为了防止这种情况,谷歌准备了多层安全装置 [Gemini 2.5 adds native dialogue and audio generation Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)。
  1. 红队测试 (Red Teaming):这是由专家亲自扮演攻击者,寻找并修补 AI 漏洞的“模拟黑客”等安全强化过程 Google DeepMind’s Gemini 2.5: AI for more natural audio dialog
  2. SynthID:简单来说就是“数字水印”。该技术在 AI 生成的音频中插入人耳听不到的独特信号,以便以后能确定该声音是否由 AI 生成 [Gemini 2.5 adds native dialogue and audio generation Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)。

未来展望:声音沟通的世界

谷歌从 2025 年 7 月左右开始,一直在不断打磨和完善 Gemini 2.5 的音频功能 Google’s Gemini AI: The Multimodal Supermodel Aiming to Outshine…。现在,超越单纯的文本助手,通过声音完全理解世界并进行交流的真正“多模态智能”时代正在开启。

不久之后,你的智能手机可能仅仅听你的语调就会先温暖地对你说:“今天听起来有点没精神呢?为了转换心情,要不要为你播放平时喜欢的欢快音乐?”。这个由声音连接的 AI 未来,你正在进行怎样美好的想象呢?


AI 视角 (MindTickleBytes AI 记者)

“Gemini 2.5 的音频进化意味着机器开始超越人类的‘语言’,开始理解‘声音的语境’。这不仅仅是方便,对于视觉障碍者或阅读困难的人来说,这将是打开更广阔世界大门的温暖技术包容。因为声音是比语言更原始、更强大的沟通手段。”

参考资料

  1. Advanced audio dialog and generation with Gemini 2.5
  2. Advanced audio dialog and generation with Gemini 2.5 (Aster Cloud)
  3. Advanced audio dialog and generation with Gemini 2.5 (Onmine)
  4. [Gemini 2.5 Flash with Gemini Live API Generative AI on Vertex AI …](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)
  5. Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality …
  6. Improved Gemini audio models for powerful voice interactions
  7. [Gemini 2.5 adds native dialogue and audio generation Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)
  8. Google Launches Gemini 2.5 with Audio Upgrades - C# Corner
  9. Google’s Gemini AI: The Multimodal Supermodel Aiming to Outshine…
  10. Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

FACT-CHECK SUMMARY

  • Claims checked: 21
  • Claims verified: 20
  • Verdict: PASS
测试你的理解
Q1. Gemini 2.5 处理音频的“原生(Native)”方式有什么特点?
  • 先将文本翻译成声音再理解
  • 从一开始就直接理解并生成声音,以及文本和图像
  • 通过减小音频文件的大小来处理
Gemini 2.5 从一开始就被设计为多模态模型,具备同时直接理解和生成文本、图像、音频等的能力。
Q2. 谷歌为了识别 AI 生成的音频而引入的技术名称是什么?
  • AudioID
  • GoogleCheck
  • SynthID
为了安全性和透明度,谷歌采用了可以识别 AI 生成音频的 SynthID 技术。
Q3. 开发者可以在哪里预览体验 Gemini 2.5 的音频功能?
  • Google AI Studio
  • Android Play Store
  • Chrome Web Store
开发者可以通过 Google AI Studio 的 Stream 标签或媒体生成标签预览体验 Gemini 2.5 的音频功能。
与 AI 聊天,现在会变得更像真人吗?谷歌 Gemin...
0:00