AI 甚至能演戏了？谷歌新一代语音技术“Gemini 3.1 Flash TTS”正式发布

AI Summary

谷歌推出了支持 70 多种语言的新一代语音 AI“Gemini 3.1 Flash TTS”，用户可以像电影导演一样精细调节语音的语调和情感。

深夜，试想一下父母在孩子睡前读童话书的声音。当主人公身处危机时，声音中透着紧迫感；而在宁静的森林场景中，则传来如耳语般温柔的暖意。那么，到目前为止我们在智能手机或导航中听到的 AI 声音又是怎样的呢？虽然准确，但总让人难以摆脱那种缺乏感情的“机械音”印象。

然而现在，那道冰冷的边界即将被打破。谷歌 DeepMind（Google DeepMind）于 2026 年 4 月 15 日隆重发布了新一代语音合成技术——“Gemini 3.1 Flash TTS”，它能像专业配音演员一样，带着丰富的情感进行表达。Gemini 3.1 Flash TTS：谷歌最具掌控力的 AI 语音

为什么这很重要？

我们为什么希望 AI 的声音变得更自然？不仅仅是因为听起来悦耳。更因为 AI 语音技术，即 TTS（Text-to-Speech，文本转语音技术），已经深入渗透到了我们生活的方方面面。

更具沉浸感的体验：在听有声读物或教育内容时，如果 AI 能根据内容表现出悲伤或喜悦，那么除了传递信息，还能实现情感上的交流。谷歌发布 Gemini 3.1 Flash-TTS：新一代具有表现力的 AI 语音……
面向所有人的温暖技术：对于视障人士来说，AI 的声音是他们阅读世界的珍贵眼睛。这种声音越像人，获取信息的疲劳感就越少，理解度也会越高。

实时沟通的进化：如果客户咨询或对话型 AI 助手能察觉我们的情绪，并以合适的语调做出回应，我们会觉得是在与真正的“伙伴”对话，而不仅仅是机器。[Gemini 3.1 Flash TTS

低延迟 AI 语音生成](https://www.geminitts.net/gemini-3-1-flash-tts)

轻松理解：成为 AI 语音的“电影导演”

理解 Gemini 3.1 Flash TTS 最简单的方法就是将其比作“电影导演”。Gemini 3.1 Flash TTS：谷歌最具掌控力的 AI 语音

如果说以前的 TTS 技术只是一个执行“朗读这段文字”指令的诚实学生，那么 Gemini 3.1 Flash TTS 就像是一个能精准领悟导演细节演技指导的资深演员。简单来说，它已经超越了单纯的朗读，开始进入了“演绎”阶段。

“音频标签”：神奇的指示书

该模型的核心秘诀在于“音频标签（Audio Tags）”。Gemini 3.1 Flash TTS：通过音频标签实现极具表现力的 AI 语音

开发者或用户可以在文字之间加入特殊的标签，向 AI 下达具体的演技指令。例如，可以实现类似“这里请用耳语的方式说”、“这一部分请用非常兴奋的声音快速朗读”这样的要求。谷歌发布 Gemini 3.1 Flash-TTS：新一代具有表现力的 AI 语音……

打个比方，这就像演奏者看到乐谱上标注的“强（forte）”或“极弱（pianissimo）”符号后，带着情感进行演奏。谷歌提供了多达 200 个以上这种可以精细调节的标签，为声音注入了生命力。[谷歌发布 Gemini 3.1 Flash TTS

支持 70 多种语言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)

用 70 多种语言传递真心

Gemini 3.1 Flash TTS 支持包括韩语在内的全球 70 多种语言。Gemini 3.1 Flash TTS：全新文本转语音 AI 模型令人惊叹的是，它不仅支持的语言种类繁多，还能完美还原每种语言特有的微妙抑扬顿挫和情感表达。Gemini 3.1 Flash TTS 彻底改变了人工智能语音合成……

现状：用数字证明的压倒性性能

这不仅仅是“变好了”的感觉。在客观实力指标上，Gemini 3.1 Flash TTS 也取得了卓越的成绩。

Elo 评分 1,211 分：在公认的评价系统“Artificial Analysis TTS”排行榜上记录了 1,211 分的高分。Gemini 3.1 Flash TTS，代理对人市场…… 这是经过数千次盲测，由人类直接判断“这个声音自然得多”后得出的结果。PDF Gemini 3.1 Flash TTS - 模型评估报告
30 种丰富多彩的声音：提供性别、年龄段、氛围各异的 30 种语音选项。从像新闻主播一样具有公信力的声音，到像朋友一样亲切的声音，可以根据情况选择使用。Gemini 3.1 Flash TTS — 谷歌提供的文本转语音 API

眨眼之间的极快速度：正如其名“Flash”，将文字转换为语音的延迟（Latency）非常短。得益于此，在实时对话服务中也能实现自然流畅的应答。[Gemini 3.1 Flash TTS

低延迟 AI 语音生成](https://www.geminitts.net/gemini-3-1-flash-tts)

为了安全的数字指纹，“SynthID”

声音听起来太真实了，会不会担心被用于犯罪？为了防止这种情况，谷歌彻底应用了名为“SynthID”的水印技术。Gemini 3.1 Flash TTS：全新文本转语音 AI 模型虽然人耳完全听不到，但通过专用系统确认，就能立即识别出“这是 AI 制作的声音”信息，留下了类似“数字指纹”的痕迹。

未来会怎样？

谷歌 DeepMind 宣称，这次发布开启了“极具表现力的 AI 语音控制新时代”。Gemini 3.1 Flash TTS：通过音频标签实现极具表现力的 AI 语音

现在，我们不仅可以实现单人的叙述，连多人对话的长篇叙事，或者包含复杂情感线的细腻旁白，都能通过 AI 完美实现。[Gemini-TTS

云端文本转语音

谷歌云文档](https://docs.cloud.google.com/text-to-speech/docs/gemini-tts) 目前，可以通过谷歌 AI Studio（Google AI Studio）和 Vertex AI 预览体验此服务。Gemini 3.1 Flash TTS，我们最新的文本转语音模型…… - LinkedIn

也许在不久的将来，我们甚至意识不到所听的播客或有声读物的主角是 AI。但重要的或许不是“谁”在说话，而是通过那个声音，我们能产生多深的情感共鸣并获取多少珍贵的信息。让我们共同期待 Gemini 3.1 Flash TTS 将开启的温暖且多姿多彩的语音未来。

AI 的视角

MindTickleBytes 的 AI 记者看到这次发布，感受到 AI 已经超越了“智能”领域，更深入地踏入了“感性”领域。音频标签这个工具就像是为 AI 注入灵魂的画笔，未来我们面对的数字世界的声音将比以往更加立体、更具人情味。希望技术不仅仅止于模仿人类的情感，更能成为让生活更加丰富多彩的“温暖工具”。

参考资料

Gemini 3.1 Flash TTS：全新文本转语音 AI 模型
Gemini 3.1 Flash TTS — 谷歌提供的文本转语音 API
谷歌发布 Gemini 3.1 Flash-TTS：新一代具有表现力的 AI 语音……
[Gemini 3.1 Flash TTS 低延迟 AI 语音生成](https://www.geminitts.net/gemini-3-1-flash-tts)
Gemini 3.1 Flash TTS，代理对人市场……
Gemini 3.1 Flash TTS：新一代具有表现力的 AI 语音……
Gemini 3.1 Flash TTS 彻底改变了人工智能语音合成……
Gemini 3.1 Flash TTS (文本转语音) 预览 - ai.google.dev
Gemini 3.1 Flash TTS：谷歌最具掌控力的 AI 语音
Gemini 3.1 Flash TTS：通过音频标签实现极具表现力的 AI 语音
PDF Gemini 3.1 Flash TTS - 模型评估报告
[Gemini-TTS 云端文本转语音谷歌云文档](https://docs.cloud.google.com/text-to-speech/docs/gemini-tts)
Gemini 3.1 Flash TTS：新一代具有表现力的 AI 语音
Gemini 3.1 Flash TTS，我们最新的文本转语音模型…… - LinkedIn
[谷歌发布 Gemini 3.1 Flash TTS 支持 70 多种语言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)

Share this article:

测试你的理解

Q1. Gemini 3.1 Flash TTS 总共支持多少种以上的语言？

30种
50种
70种

Gemini 3.1 Flash TTS 支持包括韩语在内的 70 多种语言。

Q2. 谷歌为了识别 AI 生成语音而应用的数字水印技术名称是什么？

SynthID
VoiceMatch
AudioLock

谷歌使用 SynthID 技术来识别 AI 生成的内容。

Q3. 作为 Gemini 3.1 Flash TTS 的最大特点之一，精细调节语音语调或情感的功能是？

魔法滤镜
音频标签
语音调谐器

通过 200 多个“音频标签”，可以精确控制语音的情感、速度、语调等。