现在试着对AI说‘请悲伤地读给我听’:谷歌新一代语音模型Gemini 3.1 Flash TTS

各种情感波动交织的音频波形在数字化背景上流动,象征着人类与AI沟通的形象图
AI Summary

谷歌新款AI模型‘Gemini 3.1 Flash TTS’能以70多种语言实时生成情感丰富的语音,并提供让用户直接调节音调和语速的功能。

想象一下。当你打开为孩子读童话书的APP时,AI在主角悲伤的场景中声音微微颤抖、语速放缓;而当兴奋的场景出现时,它又像在参加庆典一样兴高采烈、语速加快。如果说我们过去认知的AI语音是生硬且毫无灵魂的“机器音”,那么现在情况将发生翻天覆地的变化。

谷歌于2026年4月发布了一款将开启文本转语音技术新篇章的模型。它就是 Gemini 3.1 Flash TTS(Text-to-Speech,文字转语音技术)[谷歌云上的 Gemini 3.1 Flash TTS 谷歌云博客](https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-1-flash-tts-on-google-cloud/)。该模型的设计初衷不仅仅是朗读文字,更旨在淋漓尽致地表达说话者深层的“情感”与微妙的“韵味” Gemini 3.1 Flash TTS:新一代文本转语音 AI 模型

为什么这很重要?

我们在说话时不仅仅是在传递信息。即使是同样的短句“好吧”,在高兴、生气或勉强接受时,语调是完全不同的。然而,传统的 TTS 技术很难实现这种微妙的差异。专家称之为“静态语音(Static Speech)”的局限性。想象一下毫无灵魂的导航语音,你就能很快理解。

谷歌 DeepMind 解释说,开发这款模型的目的正是为了突破这一局限 [谷歌 Gemini 3.1 Flash TTS 对标 ElevenLabs 2026 Nexairi](https://www.nexairi.com/article/Technology/gemini-31-flash-tts-expressive-ai-speech/)。Gemini 3.1 Flash TTS 是弥合静态语音与人类丰富表现力之间巨大鸿沟的“新一代表现型 AI 语音”模型 利用包括 Gemini、Nano 在内的新一代 AI 系统进行构建…

简单来说,这意味着 AI 现在开始读懂“情境”而不仅仅是“文字”。当这项技术融入我们的生活,将带来以下变化:

通俗易懂地理解:给 AI 的“演技指令书”

Gemini 3.1 Flash TTS 最具创新的一点在于其 “音频标签(Audio Tags)” 功能 Gemini 3.1 Flash TTS:具有细粒度控制的表现型 AI 语音

像电影导演一样下达指令

这个功能就像电影导演对演员下达“演技指令”,比如“这段台词要说得更悲伤一点,然后停顿一下再继续”。打个比方,以前只是给 AI 乐谱让其演奏,现在则可以详细告诉它如何诠释乐曲。

用户无需学习复杂的代码,只需使用我们平时使用的自然语言下达指令即可 Gemini 3.1 Flash TTS,我们最新的文本转语音模型,现已在…上线。只需在文字间插入简单的标签,AI 就能细粒度(Granular)地调节语音的色调、风格和速度 谷歌发布 Gemini 3.1 Flash-TTS:新一代…。无论是要求“像新闻主播一样冷静地阅读”,还是要求“像刚运动完的人一样急促地阅读”,AI 都能立即理解并反映在语音中 [Gemini 3.1 Flash TTS (文本转语音) 预览 Gemini API](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview)。

在世界各地都能说“你好”

该模型支持包括韩语在内的 70 多种语言 Gemini 3.1 Flash TTS 引领人工智能语音合成革命…。无论使用哪种语言,它的一大特色是能体现出该语言特有的自然抑扬顿挫和情感氛围。现在,在世界任何地方都能与 AI 进行“心有灵犀”的对话了 谷歌 Gemini 3.1 Flash TTS 增加表现型 AI 语音 | StartupHub.ai

现状:它有多聪明和安全?

该模型在人工智能行业已经证明了其压倒性的性能。在 AI 分析平台“Artificial Analysis”的 TTS 排行榜上,它以 1,211 分的惊人 Elo 分数位居榜首 Gemini 3.1 Flash TTS,代理对个人市场…

此外,由于采用了 低延迟(Low-latency) 技术,下达指令后几乎没有任何延迟,能够立即生成语音 [Gemini 3.1 Flash TTS (文本转语音) 预览 Gemini API](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview)。这意味着当我们与 AI 助手实时对话时,可以像与真人交流一样顺畅自然。

隐形的安全装置:SynthID 水印技术

你会担心语音由于太像人类而被用于虚假新闻或冒名顶替犯罪吗?为了解决这些担忧,谷歌全面引入了 SynthID 水印技术 Gemini 3.1 Flash TTS:新一代文本转语音 AI 模型

这是一种“隐形的数字印章”。虽然我们的耳朵完全听不到,但如果使用专门的检测技术,语音数据中隐藏的标记可以 100% 确认该语音是由 AI 生成的 谷歌发布 Gemini 3.1 Flash-TTS:新一代…。这体现了在技术飞速发展的同时,开发者也在努力履行社会责任 [谷歌 Gemini 3.1 Flash TTS 增加表现型 AI 语音 StartupHub.ai](https://www.startuphub.ai/ai-news/ai-research/2026/google-s-gemini-3-1-flash-tts-adds-expressive-ai-voice)。

未来会怎样?

目前,Gemini 3.1 Flash TTS 正以预览(Preview)版本的形式在 Google AI Studio 和企业级平台 Vertex AI 上提供 [Gemini 3.1 Flash TTS (文本转语音) 预览 Gemini API](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview) [版本说明 Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog)。

未来,全球无数开发者和企业将无穷无尽地利用这项技术 Gemini 3.1 Flash TTS:新一代文本转语音 AI 模型 - TechAIApp。不久之后,我们将在手机 APP、车载导航、客户服务中心等日常生活的各个角落,遇见这种更懂我们心思的“聪明且亲切的声音”。

曾几何时感觉遥不可及的 AI 技术,现在正以与我们相同的情感频率向我们搭话。在这样一个时代,你想和 AI 进行怎样的温馨对话呢?

参考资料

  1. Gemini 3.1 Flash TTS:新一代文本转语音 AI 模型
  2. 谷歌发布 Gemini 3.1 Flash-TTS:新一代表现型 AI 语音…
  3. [Gemini 3.1 Flash TTS (文本转语音) 预览 Gemini API](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview)
  4. [谷歌 Gemini 3.1 Flash TTS 对标 ElevenLabs 2026 Nexairi](https://www.nexairi.com/article/Technology/gemini-31-flash-tts-expressive-ai-speech/)
  5. 利用包括 Gemini、Nano 在内的新一代 AI 系统进行构建…
  6. Gemini 3.1 Flash TTS,我们最新的文本转语音模型,现已在…上线
  7. Gemini 3.1 Flash TTS,代理对个人市场…
  8. 谷歌发布 Gemini 3.1 Flash TTS:超写实…的新时代
  9. Gemini 3.1 Flash TTS 工作室 – 在线生成 AI 语音
  10. Gemini 3.1 Flash TTS 引领人工智能语音合成革命…
  11. Gemini 3.1 Flash TTS:具有细粒度控制的表现型 AI 语音
  12. [谷歌云上的 Gemini 3.1 Flash TTS 谷歌云博客](https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-1-flash-tts-on-google-cloud/)
  13. [版本说明 Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog)
  14. Gemini 3.1 Flash TTS:新一代文本转语音 AI 模型 - TechAIApp
  15. [谷歌 Gemini 3.1 Flash TTS 增加表现型 AI 语音 StartupHub.ai](https://www.startuphub.ai/ai-news/ai-research/2026/google-s-gemini-3-1-flash-tts-adds-expressive-ai-voice)

FACT-CHECK SUMMARY

  • Claims checked: 17
  • Claims verified: 17
  • Verdict: PASS
测试你的理解
Q1. Gemini 3.1 Flash TTS中为了调节语音语调或风格而引入的功能名称是什么?
  • 语音控制器
  • 音频标签
  • 魔力语音
谷歌引入了‘音频标签(Audio Tags)’功能,可以通过自然语言指令精细调整语音的风格、速度和表达方式。
Q2. Gemini 3.1 Flash TTS总共支持多少种以上的语言?
  • 30种
  • 50种
  • 70种
该模型支持全球70多种语言,旨在适用于各种文化背景。
Q3. 为了识别AI生成的音频并提高安全性,采用了哪项技术?
  • SynthID 水印技术
  • AI 勾选标记
  • 数字签名
为了安全起见,谷歌采用了 SynthID 水印技术,在 AI 生成的音频中留下不可见的标记。