AI 甚至能演戏了?谷歌新一代语音技术“Gemini 3.1 Flash TTS”正式发布

可视化多种情感波动图形与谷歌 Gemini Logo 相结合的未来派图像
AI Summary

谷歌推出了支持 70 多种语言的新一代语音 AI“Gemini 3.1 Flash TTS”,用户可以像电影导演一样精细调节语音的语调和情感。

深夜,试想一下父母在孩子睡前读童话书的声音。当主人公身处危机时,声音中透着紧迫感;而在宁静的森林场景中,则传来如耳语般温柔的暖意。那么,到目前为止我们在智能手机或导航中听到的 AI 声音又是怎样的呢?虽然准确,但总让人难以摆脱那种缺乏感情的“机械音”印象。

然而现在,那道冰冷的边界即将被打破。谷歌 DeepMind(Google DeepMind)于 2026 年 4 月 15 日隆重发布了新一代语音合成技术——“Gemini 3.1 Flash TTS”,它能像专业配音演员一样,带着丰富的情感进行表达。Gemini 3.1 Flash TTS:谷歌最具掌控力的 AI 语音

为什么这很重要?

我们为什么希望 AI 的声音变得更自然?不仅仅是因为听起来悦耳。更因为 AI 语音技术,即 TTS(Text-to-Speech,文本转语音技术),已经深入渗透到了我们生活的方方面面。

  1. 更具沉浸感的体验:在听有声读物或教育内容时,如果 AI 能根据内容表现出悲伤或喜悦,那么除了传递信息,还能实现情感上的交流。谷歌发布 Gemini 3.1 Flash-TTS:新一代具有表现力的 AI 语音……
  2. 面向所有人的温暖技术:对于视障人士来说,AI 的声音是他们阅读世界的珍贵眼睛。这种声音越像人,获取信息的疲劳感就越少,理解度也会越高。
  3. 实时沟通的进化:如果客户咨询或对话型 AI 助手能察觉我们的情绪,并以合适的语调做出回应,我们会觉得是在与真正的“伙伴”对话,而不仅仅是机器。[Gemini 3.1 Flash TTS 低延迟 AI 语音生成](https://www.geminitts.net/gemini-3-1-flash-tts)

轻松理解:成为 AI 语音的“电影导演”

理解 Gemini 3.1 Flash TTS 最简单的方法就是将其比作“电影导演”Gemini 3.1 Flash TTS:谷歌最具掌控力的 AI 语音

如果说以前的 TTS 技术只是一个执行“朗读这段文字”指令的诚实学生,那么 Gemini 3.1 Flash TTS 就像是一个能精准领悟导演细节演技指导的资深演员。简单来说,它已经超越了单纯的朗读,开始进入了“演绎”阶段。

“音频标签”:神奇的指示书

该模型的核心秘诀在于“音频标签(Audio Tags)”Gemini 3.1 Flash TTS:通过音频标签实现极具表现力的 AI 语音

开发者或用户可以在文字之间加入特殊的标签,向 AI 下达具体的演技指令。例如,可以实现类似“这里请用耳语的方式说”、“这一部分请用非常兴奋的声音快速朗读”这样的要求。谷歌发布 Gemini 3.1 Flash-TTS:新一代具有表现力的 AI 语音……

打个比方,这就像演奏者看到乐谱上标注的“强(forte)”或“极弱(pianissimo)”符号后,带着情感进行演奏。谷歌提供了多达 200 个以上这种可以精细调节的标签,为声音注入了生命力。[谷歌发布 Gemini 3.1 Flash TTS 支持 70 多种语言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)

用 70 多种语言传递真心

Gemini 3.1 Flash TTS 支持包括韩语在内的全球 70 多种语言。Gemini 3.1 Flash TTS:全新文本转语音 AI 模型 令人惊叹的是,它不仅支持的语言种类繁多,还能完美还原每种语言特有的微妙抑扬顿挫和情感表达。Gemini 3.1 Flash TTS 彻底改变了人工智能语音合成……

现状:用数字证明的压倒性性能

这不仅仅是“变好了”的感觉。在客观实力指标上,Gemini 3.1 Flash TTS 也取得了卓越的成绩。

  • Elo 评分 1,211 分:在公认的评价系统“Artificial Analysis TTS”排行榜上记录了 1,211 分的高分。Gemini 3.1 Flash TTS,代理对人市场…… 这是经过数千次盲测,由人类直接判断“这个声音自然得多”后得出的结果。PDF Gemini 3.1 Flash TTS - 模型评估报告
  • 30 种丰富多彩的声音:提供性别、年龄段、氛围各异的 30 种语音选项。从像新闻主播一样具有公信力的声音,到像朋友一样亲切的声音,可以根据情况选择使用。Gemini 3.1 Flash TTS — 谷歌提供的文本转语音 API
  • 眨眼之间的极快速度:正如其名“Flash”,将文字转换为语音的延迟(Latency)非常短。得益于此,在实时对话服务中也能实现自然流畅的应答。[Gemini 3.1 Flash TTS 低延迟 AI 语音生成](https://www.geminitts.net/gemini-3-1-flash-tts)

为了安全的数字指纹,“SynthID”

声音听起来太真实了,会不会担心被用于犯罪?为了防止这种情况,谷歌彻底应用了名为“SynthID”的水印技术。Gemini 3.1 Flash TTS:全新文本转语音 AI 模型 虽然人耳完全听不到,但通过专用系统确认,就能立即识别出“这是 AI 制作的声音”信息,留下了类似“数字指纹”的痕迹。

未来会怎样?

谷歌 DeepMind 宣称,这次发布开启了“极具表现力的 AI 语音控制新时代”。Gemini 3.1 Flash TTS:通过音频标签实现极具表现力的 AI 语音

现在,我们不仅可以实现单人的叙述,连多人对话的长篇叙事,或者包含复杂情感线的细腻旁白,都能通过 AI 完美实现。[Gemini-TTS 云端文本转语音 谷歌云文档](https://docs.cloud.google.com/text-to-speech/docs/gemini-tts) 目前,可以通过谷歌 AI Studio(Google AI Studio)和 Vertex AI 预览体验此服务。Gemini 3.1 Flash TTS,我们最新的文本转语音模型…… - LinkedIn

也许在不久的将来,我们甚至意识不到所听的播客或有声读物的主角是 AI。但重要的或许不是“谁”在说话,而是通过那个声音,我们能产生多深的情感共鸣并获取多少珍贵的信息。让我们共同期待 Gemini 3.1 Flash TTS 将开启的温暖且多姿多彩的语音未来。

AI 的视角

MindTickleBytes 的 AI 记者看到这次发布,感受到 AI 已经超越了“智能”领域,更深入地踏入了“感性”领域。音频标签这个工具就像是为 AI 注入灵魂的画笔,未来我们面对的数字世界的声音将比以往更加立体、更具人情味。希望技术不仅仅止于模仿人类的情感,更能成为让生活更加丰富多彩的“温暖工具”。

参考资料

  1. Gemini 3.1 Flash TTS:全新文本转语音 AI 模型
  2. Gemini 3.1 Flash TTS — 谷歌提供的文本转语音 API
  3. 谷歌发布 Gemini 3.1 Flash-TTS:新一代具有表现力的 AI 语音……
  4. [Gemini 3.1 Flash TTS 低延迟 AI 语音生成](https://www.geminitts.net/gemini-3-1-flash-tts)
  5. Gemini 3.1 Flash TTS,代理对人市场……
  6. Gemini 3.1 Flash TTS:新一代具有表现力的 AI 语音……
  7. Gemini 3.1 Flash TTS 彻底改变了人工智能语音合成……
  8. Gemini 3.1 Flash TTS (文本转语音) 预览 - ai.google.dev
  9. Gemini 3.1 Flash TTS:谷歌最具掌控力的 AI 语音
  10. Gemini 3.1 Flash TTS:通过音频标签实现极具表现力的 AI 语音
  11. PDF Gemini 3.1 Flash TTS - 模型评估报告
  12. [Gemini-TTS 云端文本转语音 谷歌云文档](https://docs.cloud.google.com/text-to-speech/docs/gemini-tts)
  13. Gemini 3.1 Flash TTS:新一代具有表现力的 AI 语音
  14. Gemini 3.1 Flash TTS,我们最新的文本转语音模型…… - LinkedIn
  15. [谷歌发布 Gemini 3.1 Flash TTS 支持 70 多种语言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)
测试你的理解
Q1. Gemini 3.1 Flash TTS 总共支持多少种以上的语言?
  • 30种
  • 50种
  • 70种
Gemini 3.1 Flash TTS 支持包括韩语在内的 70 多种语言。
Q2. 谷歌为了识别 AI 生成语音而应用的数字水印技术名称是什么?
  • SynthID
  • VoiceMatch
  • AudioLock
谷歌使用 SynthID 技术来识别 AI 生成的内容。
Q3. 作为 Gemini 3.1 Flash TTS 的最大特点之一,精细调节语音语调或情感的功能是?
  • 魔法滤镜
  • 音频标签
  • 语音调谐器
通过 200 多个“音频标签”,可以精确控制语音的情感、速度、语调等。