谷歌 Gemini 2.5 通过从一开始就理解并生成声音的“原生音频”功能,实现了像人一样自然的对话和精细的语音生成。
想象一下。 在一个陌生外国城市繁忙的咖啡馆里,你想点餐,但菜单很陌生,话到嘴边却说不出来,这种尴尬的时刻。这时你拿出智能手机开始对话。它不仅仅是翻译句子并生硬地读出来。这个 AI 察觉到了我声音中细微的颤抖和急迫,用平静的声音安抚我。然后,就像身边的资深翻译员在耳边低语一样,以完全符合情境的自然语调与店员继续交流。
这种电影般的情节,通过谷歌最新的 AI 模型 Gemini 2.5,正大步迈向我们的日常生活。谷歌最近发布了 Gemini 2.5,并宣布在人工智能听和说的方式上实现了巨大的技术跨越 Advanced audio dialog and generation with Gemini 2.5。
为什么这很重要?
现有的 AI 语音服务实际上就像是“翻译员们的接力赛”。当我们说话时,1 号选手将其记录为文本(STT,语音转文本),2 号选手分析该文本并创建回答,然后 3 号选手再将该回答读成声音(TTS,文本转语音)。
这种“接力赛”方式有一个致命的弱点:每当选手之间传递接力棒时,信息都会丢失一点点。声音中所包含的悲伤或喜悦等情感、想要强调的部分的细微差别,甚至周围充满活力的噪音等宝贵的“语境”,在转换为文本的过程中都蒸发掉了。
但 Gemini 2.5 不同。谷歌提出了一个大胆的愿景,即该模型未来将创造一个 “与 AI 交互就像与他人交谈一样自然” 的世界 Google Launches Gemini 2.5 with Audio Upgrades - C# Corner。现在,AI 开始直接理解和生成声音,而无需中间阶段。
轻松理解:“原生音频”的秘密
Gemini 2.5 的核心在于 “原生(Native)多模态” 设计 Advanced audio dialog and generation with Gemini 2.5。
1. 真正能听见声音的 AI
这里的 多模态(Multimodal,同时处理多种形式信息的能力),其原理就像人能用眼睛看(图像)、用耳朵听(音频)、读文字(文本)一样。Gemini 2.5 从设计阶段开始,就被赋予了不仅能直接理解和生成文本、图像、视频、代码,还能直接处理“音频”的能力 Advanced audio dialog and generation with Gemini 2.5。
打个比方:
传统 AI:看着乐谱逐个读出音符名称来唱歌的人(通过文字学习音乐) Gemini 2.5:原封不动地聆听传来的旋律,并带着那种感觉和感触进行即兴演奏的音乐家(通过身体感受音乐)
2. 像说话一样聊天的实时对话
谷歌通过 Gemini 2.5 大幅强化了实时对话能力。这不再仅仅是我们提出问题、然后枯燥地等待 AI 回答的方式。它能够把握对话的流程和语境,在中间打断对方的话或自然地随声附和,实现了像人与人之间“聊天”一样的交互 Google DeepMind’s Gemini 2.5: AI for more natural audio dialog。
Gemini 2.5 的“音频家族”
Gemini 2.5 模型系列由两个根据使用目的具有不同优势的模型组成 Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality …。
- Gemini 2.5 Pro:可以看作是“百科全书般的教授”。它拥有最顶尖的智能,在复杂的编程或逻辑推理能力方面表现卓越。在音频领域也展示了最高水平的深度分析性能。
- Gemini 2.5 Flash:可以理解为“行动敏捷的秘书”。顾名思义,它既快速又轻便。最适合像实时对话这样哪怕 0.1 秒的延迟都会显得尴尬、需要即时反应的服务。
| 特别是开发者现在可以通过“Gemini Live API”,轻松地在自己的应用中实现质量惊人、仿佛与真人对话般的音频功能 [Gemini 2.5 Flash with Gemini Live API | Generative AI on Vertex AI …](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)。 |
我们的日常生活即刻发生的变化
在我们的日常生活中,最先能感受到的变化就是 谷歌翻译(Google Translate) 应用。得益于 Gemini 2.5 改进的音频模型,应用内实时翻译对话的功能变得更加流畅和强大 Improved Gemini audio models for powerful voice interactions。
此外,感兴趣的开发者或早期采用者可以在 Google AI Studio 中预览以下功能 Advanced audio dialog and generation with Gemini 2.5:
- 原生音频对话:可以通过 Flash 模型测试与 AI 交换语言的速度有多快。
- 可控语音生成 (TTS):这是一项精细的功能,可以根据用户想要的特定细微差别或情感风格来创建语音。
为了安全透明 AI 的承诺
| 惊人的技术伴随着相应的责任。随着 AI 能够像人一样说话,人们对可能出现的滥用(例如:模仿他人声音的深度伪造语音)的担忧也在增加。为了防止这种情况,谷歌准备了多层安全装置 [Gemini 2.5 adds native dialogue and audio generation | Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)。 |
- 红队测试 (Red Teaming):这是由专家亲自扮演攻击者,寻找并修补 AI 漏洞的“模拟黑客”等安全强化过程 Google DeepMind’s Gemini 2.5: AI for more natural audio dialog。
-
SynthID:简单来说就是“数字水印”。该技术在 AI 生成的音频中插入人耳听不到的独特信号,以便以后能确定该声音是否由 AI 生成 [Gemini 2.5 adds native dialogue and audio generation Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)。
未来展望:声音沟通的世界
谷歌从 2025 年 7 月左右开始,一直在不断打磨和完善 Gemini 2.5 的音频功能 Google’s Gemini AI: The Multimodal Supermodel Aiming to Outshine…。现在,超越单纯的文本助手,通过声音完全理解世界并进行交流的真正“多模态智能”时代正在开启。
不久之后,你的智能手机可能仅仅听你的语调就会先温暖地对你说:“今天听起来有点没精神呢?为了转换心情,要不要为你播放平时喜欢的欢快音乐?”。这个由声音连接的 AI 未来,你正在进行怎样美好的想象呢?
AI 视角 (MindTickleBytes AI 记者)
“Gemini 2.5 的音频进化意味着机器开始超越人类的‘语言’,开始理解‘声音的语境’。这不仅仅是方便,对于视觉障碍者或阅读困难的人来说,这将是打开更广阔世界大门的温暖技术包容。因为声音是比语言更原始、更强大的沟通手段。”
参考资料
- Advanced audio dialog and generation with Gemini 2.5
- Advanced audio dialog and generation with Gemini 2.5 (Aster Cloud)
- Advanced audio dialog and generation with Gemini 2.5 (Onmine)
-
[Gemini 2.5 Flash with Gemini Live API Generative AI on Vertex AI …](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api) - Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality …
- Improved Gemini audio models for powerful voice interactions
-
[Gemini 2.5 adds native dialogue and audio generation Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082) - Google Launches Gemini 2.5 with Audio Upgrades - C# Corner
- Google’s Gemini AI: The Multimodal Supermodel Aiming to Outshine…
- Google DeepMind’s Gemini 2.5: AI for more natural audio dialog
FACT-CHECK SUMMARY
- Claims checked: 21
- Claims verified: 20
- Verdict: PASS
- 先将文本翻译成声音再理解
- 从一开始就直接理解并生成声音,以及文本和图像
- 通过减小音频文件的大小来处理
- AudioID
- GoogleCheck
- SynthID
- Google AI Studio
- Android Play Store
- Chrome Web Store