告别机械音！揭秘 Google Gemini 2.5 打造‘真人般’嗓音的奥秘

AI Summary

Gemini 2.5 采用不经过文本直接生成声音的‘原生音频’技术，使其能够以像真人一样自然且富有情感的节奏进行实时对话。

想象一下。你正和久违的好友坐在阳光明媚的咖啡馆里聊天。当你开一个顽皮的玩笑时，朋友会立刻咯咯笑出声；当你倾诉烦恼时，他会压低嗓音，流露出真诚的共鸣。对话之间几乎没有尴尬的沉默，说话的节奏和强弱根据情况像波浪一样自然起伏。

到目前为止，我们体验到的与 AI 的对话是怎样的呢？当你问“今天天气怎么样？”时，AI 会先“思考”片刻，生成文本回答，然后再用生硬的机械音读出这些文字。就像中间隔着一个外国翻译官，传达总是慢半拍，显得有些缓慢且枯燥。

但随着 Google 最新模型 Gemini 2.5 的出现，这一景象正发生魔术般的改变。现在，AI 能够像“真人”一样与我们实时对话，而且声音中充满了细腻的情感。Google Unveils Gemini 2.5 with Advanced Audio Generation…

为什么这对我们的生活很重要？

这不仅仅是“AI 的声音比以前好听了”这种程度的变化。我们在与人交流时感受到的“连接感”并不只来自词汇的含义。我们从声音的细微颤抖、说话速度、语调高低中感受对方的真诚。Gemini 2.5 完美捕捉了这种韵律 (Prosody，句子的节奏和音律)，消除了与机器对话的违和感，带来了仿佛与真人面对面坐着般的体验。Advanced audio dialog and generation with Gemini 2.5 - aster.cloud

特别值得关注的是，延迟 (Latency，发出指令后到产生反应的等待时间) 得到了突破性的降低。Advanced audio dialog and generation with Gemini 2.5 - BartDay 保持对话流程不中断在技术上是一个极大的挑战。但随着这个问题的解决，AI 可以成为视障人士的贴心导航员，成为独居老人 24 小时温暖陪伴的聊天伙伴。此外，游戏中的角色也可以根据玩家的话语即时表现出愤怒或喜悦，内容的沉浸感将提升到新的层次。

易于理解：‘母语者 AI’的诞生秘诀

Gemini 2.5 的核心运行着一种被称为‘原生音频 (Native Audio)’的技术。如果把这个复杂的术语比作我们的日常生活，如下所示：

过去的 AI（翻译机方式）：收到英文信件后（输入），在脑海中将其翻译成中文（文本生成），然后再读出该译文（语音转换）。步骤繁多，耗时较长，且在翻译过程中，原句所蕴含的微妙语气或情感往往会消失殆尽。

Gemini 2.5（母语者方式）：就像一个“母语者”，在听到英语的瞬间就能以同样的感觉和情感立即用中文作答。无需中间转换文本的繁琐过程，直接在 AI 的“大脑”中产生名为声音的声波。Google Unveils Gemini 2.5 with Advanced Audio Generation…

得益于这种“直接生成”方式，Gemini 2.5 可以随心所欲地生成从极短的感叹句到长篇讲演的内容。甚至当用户要求“说得再悲伤一点”或“像兴奋的体育解说员那样说话”时，它已经达到了可以精细调节声音风格和表演力 (Performance) 的水平。Gemini Audio is a family of advanced real-time audio models, built on…

这种惊人的能力已经通过 Google 的智能笔记本 NotebookLM 的“音频概览”功能，以及通过观察眼前事物进行对话的未来型助手 Project Astra 证明了其实力。Gemini 2.5’s native audio capabilities

现状：思考更深，说话更快

Gemini 2.5 不仅仅是一个“擅长说话”的模型。根据用途，该模型分为两个可靠的兄弟：

Gemini 2.5 Pro：集 Google 技术之大成的最聪明模型。在处理复杂的数学问题或专业编程时表现卓越。特别是作为一个能够自我深入思考并给出逻辑性回答的‘思考模型 (Thinking model)’，它同时理解音频、文本和图像的多模态 (Multimodal，多感官处理) 能力具有压倒性优势。Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality …
Gemini 2.5 Flash：正如其名“闪电”，这是一个专注于速度和效率的模型。我们在智能手机上体验到的实时音频对话功能主要由该模型负责。目前，任何人都可以在 Google AI Studio 等平台亲自体验这种惊人的速度。Advanced audio dialog and generation with Gemini 2.5 – ONMINE

Google 并没有止步于此，在 2026 年 3 月又惊喜发布了更专注于实时对话的 Gemini 3.1 Flash Live (gemini-3.1-flash-live-preview)，预示着 AI 已准备好更深入地走进我们的生活。[Release notes

Gemini API

Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog)

如果因为太真实而感到害怕？这里有‘安全装置’

当 AI 的声音精细到无法与真人区分时，自然会担心“这会不会是用假声音来诈骗？”。为此，Google 设置了多重锁。

首先，经过了被称为红队测试 (Red teaming，模拟攻击测试) 的严苛验证过程。安全专家们像反派一样攻击 AI，预先检查并完善其是否会说出坏话或泄露危险信息。Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

其次，留下名为 SynthID 的隐形标记。虽然完全不会影响声音质量，但在数字世界中，会在音频中埋入可以明确识别的“密码”。通过这种方式，以后可以准确判别该声音是否由 AI 制作。[Gemini 2.5 adds native dialogue and audio generation

Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)

想象一下：我们与 AI 共处的明天

Gemini 2.5 开启的语音革新将从根本上改变我们与计算机交互的方式。现在，我们不再需要敲击键盘，而可以在下班路上的车里与 AI 讨论今天读的书，或者像和外国朋友聊天一样自然地学习外语。

通过 Gemini Live API 实现的声音已经足以让人发出“简直像真人一样”的赞叹。[Gemini 2.5 Flash with Gemini Live API

Generative AI on Vertex AI …](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api) 在不久的将来，你手机里的 AI 可能不再仅仅是一个助手，而是成为一个能细心察觉你的心情、既可靠又聪明的“人生知己”。

AI 的视角

在 MindTickleBytes 的 AI 记者看来，这次 Gemini 2.5 的音频革新意味着技术不仅在变得聪明，更在变得“温暖”。如果说以前的 AI 是传达冰冷知识的百科全书，那么现在它已经具备了从用户颤抖的声音中读出悲伤，并以相应的节奏进行回答的共鸣能力。技术与人类通过声音合二为一的世界，比想象中要近得多。

参考资料

Gemini 2.5’s native audio capabilities
Advanced audio dialog and generation with Gemini 2.5 - aster.cloud
Gemini Audio is a family of advanced real-time audio models, built on…
Google Unveils Gemini 2.5 with Advanced Audio Generation…
Advanced audio dialog and generation with Gemini 2.5 – ONMINE
Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

[Gemini 2.5 Flash with Gemini Live API

Generative AI on Vertex AI …](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality …

[Gemini 2.5 adds native dialogue and audio generation

Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)

Advanced audio dialog and generation with Gemini 2.5 - BartDay
[Release notes Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog)
Google’s Gemini AI: The Multimodal Supermodel Aiming to Outshine…
Google Opens Access to Gemini 2.5 Native Audio Dialog and…

FACT-CHECK SUMMARY

Claims checked: 20
Claims verified: 20
Verdict: PASS

Share this article:

测试你的理解

Q1. Gemini 2.5 的‘原生音频’技术与传统 AI 语音技术相比，最大的特征是什么？

先写下文本，然后再转换成声音
不经过文本转换过程，直接生成音频响应
录制并存储人的声音

Gemini 2.5 省略了传统的‘文本转语音 (TTS)’过程，直接生成音频，从而实现更自然、更快速的对话。

Q2. 关于 Gemini 2.5 提供的音频生成功能中‘风格与音调’的说明，正确的是？

用户可以精细调节风格和音调
AI 随机决定风格
只能使用一种单调的音调

Gemini 音频提供了对风格、音调、表演等方面的精细控制 (Granular control) 功能。

Q3. 为了确认 AI 生成音频的安全性和透明度，使用了哪种技术？

区块链
SynthID
人脸识别技术

Google 使用 SynthID 技术来识别 AI 生成的内容，并结合红队测试 (Red teaming) 进行安全检查。