谷歌最新的 AI 模型 Gemini 2.5 通过“原生音频”技术,无需转换为文本即可直接理解和生成声音,支持如人类般自然对话以及生成多角色播客。
想象一下:清晨,你问你的 AI 助手:“今天心情怎么样?”如果是以前,它可能会用机械的声音回答:“我是人工智能,无法感受心情。”但现在不同了。AI 从你略显沙哑的声音中察觉到了疲惫,并用亲切的语调回答:“听起来您的嗓子有点哑,要不要来杯热茶?”然后像老朋友一样继续和你聊天。
这不再是电影里的情节。谷歌新推出的 Gemini 2.5 正在让这一切成为现实。今天,我们将通俗易懂地探讨这款谷歌最智能的 AI 模型如何在“声音”领域掀起革命,以及它将给我们的生活带来哪些变化。来源: Gemini Apps’ release updates and improvements
为什么这很重要?
到目前为止,我们与 AI 对话时,中间总隔着一个看不见的“翻译官”。当我们说话时,AI 先将其转换为文本(文字),分析文字生成答案,再将答案转回机械音播放给我们。在这个过程中,声音中蕴含的微妙颤抖、喜悦或悲伤等“情感数据”大多丢失了。
但 Gemini 2.5 不同。该模型从设计阶段开始就是原生多模态 (Native Multimodal),这意味着它从底层就能同时理解和生成文本、图像、音频、视频,甚至是代码。来源: Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com, 来源: Advanced audio dialog and generation with Gemini 2.5
简单来说,Gemini 2.5 可以“直接”听、“直接”说,无需中间过程。打个比方,这就像在与外国人交流时,不再通过翻译机,而是直接交换彼此的语言和情感。得益于此,对话的延迟几乎消失,能够实现像人类一样具有自然节奏和情感的对话。来源: AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud
轻松理解:Gemini 2.5 音频的三大核心武器
1. “读懂情感” —— 情感对话 (Affective Dialog)
Gemini 2.5 最令人惊叹的功能之一是情感对话 (Affective Dialog)。来源: Gemini 2.5 Flash with Gemini Live API | Generative AI on Vertex AI | Google Cloud Documentation
该功能让 AI 能够察觉用户语调中的细微差别。例如,如果你用兴奋的声音说“我今天升职了!”,AI 也会用同样欢快的语调祝贺你;相反,面对忧郁的声音,它会给出沉稳而温暖的安慰。这意味着 AI 已经从单纯的信息传递工具进化为真正的“对话伙伴”。
2. “独自创作播客” —— 多角色对话生成
你听过类似“NotebookLM”风格的音频摘要吗?Gemini 2.5 可以根据文本输入直接创建两人对话形式的音频。来源: Advanced audio dialog and generation with Gemini 2.5
想象一下,你给 AI 一篇长篇新闻稿或复杂的报告,并要求“把它做成播客”,Gemini 2.5 就能瞬间生成一段音频文件,由两名主持人的声音互相问答,幽默风趣地讲解核心内容。结果非常自然且富有立体感,仿佛两名专业主持人在广播间对话一样。来源: r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5
3. “无需等待的对话” —— 超低延迟技术
在与之前的 AI 对话时,那种“嗯……请稍等……”的尴尬停顿是否让你感到沮丧?Gemini 2.5,尤其是 Gemini 2.5 Flash 模型,拥有极低的延迟 (Low Latency)。来源: AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud
低延迟意味着我们话音刚落,AI 就会做出反应。因此,你可以打断对方或紧接着话茬说下去,实现像真人通话一样流畅灵活的交流。这将在客户咨询或实时翻译服务中产生巨大的影响。来源: Advanced audio dialog and generation with Gemini 2.5 - Google Blog
现状:我们走到了哪里?
| 谷歌正通过“Google AI Studio”和“Vertex AI”公开这些强大的功能,供开发者直接使用。特别是 Gemini 2.5 Pro,被认为是谷歌推出的最先进的模型,兼具复杂的推理和编程能力。来源: Google’s Gemini 2.5 Pro: A Preview That’s Anything but Incremental, [来源: Models | Gemini API | Google AI for Developers](https://ai.google.dev/gemini-api/docs/models) |
但是,你是否担心 AI 创作的声音太真实了?为此,谷歌引入了 SynthID 技术。Gemini 2.5 生成的所有音频都嵌入了不可见的水印,以便后续识别该声音是否由 AI 创建,从而提高了透明度。这相当于打上了不可见的数字烙印,确保了安全性。来源: Advanced audio dialog and generation with Gemini 2.5 – ONMINE, 来源: Google DeepMind’s Gemini 2.5: AI for more natural audio dialog
未来会怎样?
Gemini 2.5 展示的音频技术已经超越了单纯的“发声”水平。现在,AI 正在进化为能够洞察我们说话方式、语调、速度中所隐藏意图的“智能体 (Agent)”。来源: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue - arXiv
未来,实时改变声音的翻译服务(让你能直接和外国朋友通话)、为视障人士带有感情地描述周围环境的服务,以及根据个人喜好定制的 AI 播客等丰富生活的可能性将全面开启。不再是用眼睛阅读纸质书,由 AI 带着作者的情感为你朗读的立体化阅读体验也指日可待。来源: Gemini Audio - Google DeepMind
MindTickleBytes AI 记者视角:Gemini 2.5 相当于同时赋予了 AI “耳朵”和“声带”。摆脱了文本这种生硬的外壳,直接通过声音进行交流的 AI,将把人机之间的心理距离缩短到前所未有的程度。一个跨越语言障碍、通过情感波动相连接的全新沟通时代已经开始。
参考资料
- Advanced audio dialog and generation with Gemini 2.5
- r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5
- Advanced audio dialog and generation with Gemini 2.5 – ONMINE
- Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com
-
[Models Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models) -
[Gemini 2.5 Flash with Gemini Live API Generative AI on Vertex AI Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api) - Advanced audio dialog and generation with Gemini 2.5 - Google Blog
- Advanced audio dialog and generation with Gemini 2.5
- Google’s Gemini 2.5 Pro: A Preview That’s Anything but Incremental
- Gemini Audio - Google DeepMind
- A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue - arXiv
- Gemini Apps’ release updates and improvements
- AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud
-
[Release notes Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog) - Google DeepMind’s Gemini 2.5: AI for more natural audio dialog
参考资料核查摘要
- 检查项:14
- 已核实:14
- 结论:通过 (PASS)
- 先将声音转换为文本再分析
- 从底层设计开始就整合理解文本、图像、音频等的‘多模态’方式
- 只能处理文本
- 水印扫描 (Watermark Scan)
- SynthID
- 音频卫士 (Audio Guard)
- 理解并表达声音中的情感或语调的功能
- 极速翻译外语的功能
- 将多人的声音合而为一的功能