与 AI 进行“真实”对话，谷歌 Gemini 2.5 开启原生音频时代

AI Summary

谷歌最新的 AI 模型 Gemini 2.5 通过“原生音频”技术，无需转换为文本即可直接理解和生成声音，支持如人类般自然对话以及生成多角色播客。

想象一下：清晨，你问你的 AI 助手：“今天心情怎么样？”如果是以前，它可能会用机械的声音回答：“我是人工智能，无法感受心情。”但现在不同了。AI 从你略显沙哑的声音中察觉到了疲惫，并用亲切的语调回答：“听起来您的嗓子有点哑，要不要来杯热茶？”然后像老朋友一样继续和你聊天。

这不再是电影里的情节。谷歌新推出的 Gemini 2.5 正在让这一切成为现实。今天，我们将通俗易懂地探讨这款谷歌最智能的 AI 模型如何在“声音”领域掀起革命，以及它将给我们的生活带来哪些变化。来源: Gemini Apps’ release updates and improvements

为什么这很重要？

到目前为止，我们与 AI 对话时，中间总隔着一个看不见的“翻译官”。当我们说话时，AI 先将其转换为文本（文字），分析文字生成答案，再将答案转回机械音播放给我们。在这个过程中，声音中蕴含的微妙颤抖、喜悦或悲伤等“情感数据”大多丢失了。

但 Gemini 2.5 不同。该模型从设计阶段开始就是原生多模态 (Native Multimodal)，这意味着它从底层就能同时理解和生成文本、图像、音频、视频，甚至是代码。来源: Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com, 来源: Advanced audio dialog and generation with Gemini 2.5

简单来说，Gemini 2.5 可以“直接”听、“直接”说，无需中间过程。打个比方，这就像在与外国人交流时，不再通过翻译机，而是直接交换彼此的语言和情感。得益于此，对话的延迟几乎消失，能够实现像人类一样具有自然节奏和情感的对话。来源: AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud

轻松理解：Gemini 2.5 音频的三大核心武器

1. “读懂情感” —— 情感对话 (Affective Dialog)

Gemini 2.5 最令人惊叹的功能之一是情感对话 (Affective Dialog)。来源: Gemini 2.5 Flash with Gemini Live API | Generative AI on Vertex AI | Google Cloud Documentation

该功能让 AI 能够察觉用户语调中的细微差别。例如，如果你用兴奋的声音说“我今天升职了！”，AI 也会用同样欢快的语调祝贺你；相反，面对忧郁的声音，它会给出沉稳而温暖的安慰。这意味着 AI 已经从单纯的信息传递工具进化为真正的“对话伙伴”。

2. “独自创作播客” —— 多角色对话生成

你听过类似“NotebookLM”风格的音频摘要吗？Gemini 2.5 可以根据文本输入直接创建两人对话形式的音频。来源: Advanced audio dialog and generation with Gemini 2.5

想象一下，你给 AI 一篇长篇新闻稿或复杂的报告，并要求“把它做成播客”，Gemini 2.5 就能瞬间生成一段音频文件，由两名主持人的声音互相问答，幽默风趣地讲解核心内容。结果非常自然且富有立体感，仿佛两名专业主持人在广播间对话一样。来源: r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5

3. “无需等待的对话” —— 超低延迟技术

在与之前的 AI 对话时，那种“嗯……请稍等……”的尴尬停顿是否让你感到沮丧？Gemini 2.5，尤其是 Gemini 2.5 Flash 模型，拥有极低的延迟 (Low Latency)。来源: AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud

低延迟意味着我们话音刚落，AI 就会做出反应。因此，你可以打断对方或紧接着话茬说下去，实现像真人通话一样流畅灵活的交流。这将在客户咨询或实时翻译服务中产生巨大的影响。来源: Advanced audio dialog and generation with Gemini 2.5 - Google Blog

现状：我们走到了哪里？

谷歌正通过“Google AI Studio”和“Vertex AI”公开这些强大的功能，供开发者直接使用。特别是 Gemini 2.5 Pro，被认为是谷歌推出的最先进的模型，兼具复杂的推理和编程能力。来源: Google’s Gemini 2.5 Pro: A Preview That’s Anything but Incremental, [来源: Models

Gemini API

Google AI for Developers](https://ai.google.dev/gemini-api/docs/models)

但是，你是否担心 AI 创作的声音太真实了？为此，谷歌引入了 SynthID 技术。Gemini 2.5 生成的所有音频都嵌入了不可见的水印，以便后续识别该声音是否由 AI 创建，从而提高了透明度。这相当于打上了不可见的数字烙印，确保了安全性。来源: Advanced audio dialog and generation with Gemini 2.5 – ONMINE, 来源: Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

未来会怎样？

Gemini 2.5 展示的音频技术已经超越了单纯的“发声”水平。现在，AI 正在进化为能够洞察我们说话方式、语调、速度中所隐藏意图的“智能体 (Agent)”。来源: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue - arXiv

未来，实时改变声音的翻译服务（让你能直接和外国朋友通话）、为视障人士带有感情地描述周围环境的服务，以及根据个人喜好定制的 AI 播客等丰富生活的可能性将全面开启。不再是用眼睛阅读纸质书，由 AI 带着作者的情感为你朗读的立体化阅读体验也指日可待。来源: Gemini Audio - Google DeepMind

MindTickleBytes AI 记者视角：Gemini 2.5 相当于同时赋予了 AI “耳朵”和“声带”。摆脱了文本这种生硬的外壳，直接通过声音进行交流的 AI，将把人机之间的心理距离缩短到前所未有的程度。一个跨越语言障碍、通过情感波动相连接的全新沟通时代已经开始。

参考资料

Advanced audio dialog and generation with Gemini 2.5
r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5
Advanced audio dialog and generation with Gemini 2.5 – ONMINE
Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com
[Models Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models)

[Gemini 2.5 Flash with Gemini Live API

Generative AI on Vertex AI

Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)

Advanced audio dialog and generation with Gemini 2.5 - Google Blog
Advanced audio dialog and generation with Gemini 2.5
Google’s Gemini 2.5 Pro: A Preview That’s Anything but Incremental
Gemini Audio - Google DeepMind
A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue - arXiv
Gemini Apps’ release updates and improvements
AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud
[Release notes Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog)
Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

参考资料核查摘要

检查项：14
已核实：14
结论：通过 (PASS)

Share this article:

测试你的理解

Q1. Gemini 2.5 处理音频的最主要特点是什么？

先将声音转换为文本再分析
从底层设计开始就整合理解文本、图像、音频等的‘多模态’方式
只能处理文本

Gemini 2.5 在设计阶段就采用了原生多模态（Native Multimodal）架构，可以同时理解和生成文本、图像、音频等内容。

Q2. 为了提高 AI 生成音频的透明度，谷歌应用的技术名称是？

水印扫描 (Watermark Scan)
SynthID
音频卫士 (Audio Guard)

谷歌在所有输出内容中嵌入名为 SynthID 的水印技术，以便识别该音频是由 AI 生成的。

Q3. Gemini 2.5 的‘情感对话 (Affective Dialog)’功能意味着什么？

理解并表达声音中的情感或语调的功能
极速翻译外语的功能
将多人的声音合而为一的功能

情感对话功能可以捕捉并生成对话中的情感细微差别或语调，使沟通更加自然。