谷歌推出了支持 70 多种语言的新一代语音 AI“Gemini 3.1 Flash TTS”,用户可以像电影导演一样精细调节语音的语调和情感。
深夜,试想一下父母在孩子睡前读童话书的声音。当主人公身处危机时,声音中透着紧迫感;而在宁静的森林场景中,则传来如耳语般温柔的暖意。那么,到目前为止我们在智能手机或导航中听到的 AI 声音又是怎样的呢?虽然准确,但总让人难以摆脱那种缺乏感情的“机械音”印象。
然而现在,那道冰冷的边界即将被打破。谷歌 DeepMind(Google DeepMind)于 2026 年 4 月 15 日隆重发布了新一代语音合成技术——“Gemini 3.1 Flash TTS”,它能像专业配音演员一样,带着丰富的情感进行表达。Gemini 3.1 Flash TTS:谷歌最具掌控力的 AI 语音
为什么这很重要?
我们为什么希望 AI 的声音变得更自然?不仅仅是因为听起来悦耳。更因为 AI 语音技术,即 TTS(Text-to-Speech,文本转语音技术),已经深入渗透到了我们生活的方方面面。
- 更具沉浸感的体验:在听有声读物或教育内容时,如果 AI 能根据内容表现出悲伤或喜悦,那么除了传递信息,还能实现情感上的交流。谷歌发布 Gemini 3.1 Flash-TTS:新一代具有表现力的 AI 语音……
- 面向所有人的温暖技术:对于视障人士来说,AI 的声音是他们阅读世界的珍贵眼睛。这种声音越像人,获取信息的疲劳感就越少,理解度也会越高。
-
实时沟通的进化:如果客户咨询或对话型 AI 助手能察觉我们的情绪,并以合适的语调做出回应,我们会觉得是在与真正的“伙伴”对话,而不仅仅是机器。[Gemini 3.1 Flash TTS 低延迟 AI 语音生成](https://www.geminitts.net/gemini-3-1-flash-tts)
轻松理解:成为 AI 语音的“电影导演”
理解 Gemini 3.1 Flash TTS 最简单的方法就是将其比作“电影导演”。Gemini 3.1 Flash TTS:谷歌最具掌控力的 AI 语音
如果说以前的 TTS 技术只是一个执行“朗读这段文字”指令的诚实学生,那么 Gemini 3.1 Flash TTS 就像是一个能精准领悟导演细节演技指导的资深演员。简单来说,它已经超越了单纯的朗读,开始进入了“演绎”阶段。
“音频标签”:神奇的指示书
该模型的核心秘诀在于“音频标签(Audio Tags)”。Gemini 3.1 Flash TTS:通过音频标签实现极具表现力的 AI 语音
开发者或用户可以在文字之间加入特殊的标签,向 AI 下达具体的演技指令。例如,可以实现类似“这里请用耳语的方式说”、“这一部分请用非常兴奋的声音快速朗读”这样的要求。谷歌发布 Gemini 3.1 Flash-TTS:新一代具有表现力的 AI 语音……
| 打个比方,这就像演奏者看到乐谱上标注的“强(forte)”或“极弱(pianissimo)”符号后,带着情感进行演奏。谷歌提供了多达 200 个以上这种可以精细调节的标签,为声音注入了生命力。[谷歌发布 Gemini 3.1 Flash TTS | 支持 70 多种语言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release) |
用 70 多种语言传递真心
Gemini 3.1 Flash TTS 支持包括韩语在内的全球 70 多种语言。Gemini 3.1 Flash TTS:全新文本转语音 AI 模型 令人惊叹的是,它不仅支持的语言种类繁多,还能完美还原每种语言特有的微妙抑扬顿挫和情感表达。Gemini 3.1 Flash TTS 彻底改变了人工智能语音合成……
现状:用数字证明的压倒性性能
这不仅仅是“变好了”的感觉。在客观实力指标上,Gemini 3.1 Flash TTS 也取得了卓越的成绩。
- Elo 评分 1,211 分:在公认的评价系统“Artificial Analysis TTS”排行榜上记录了 1,211 分的高分。Gemini 3.1 Flash TTS,代理对人市场…… 这是经过数千次盲测,由人类直接判断“这个声音自然得多”后得出的结果。PDF Gemini 3.1 Flash TTS - 模型评估报告
- 30 种丰富多彩的声音:提供性别、年龄段、氛围各异的 30 种语音选项。从像新闻主播一样具有公信力的声音,到像朋友一样亲切的声音,可以根据情况选择使用。Gemini 3.1 Flash TTS — 谷歌提供的文本转语音 API
-
眨眼之间的极快速度:正如其名“Flash”,将文字转换为语音的延迟(Latency)非常短。得益于此,在实时对话服务中也能实现自然流畅的应答。[Gemini 3.1 Flash TTS 低延迟 AI 语音生成](https://www.geminitts.net/gemini-3-1-flash-tts)
为了安全的数字指纹,“SynthID”
声音听起来太真实了,会不会担心被用于犯罪?为了防止这种情况,谷歌彻底应用了名为“SynthID”的水印技术。Gemini 3.1 Flash TTS:全新文本转语音 AI 模型 虽然人耳完全听不到,但通过专用系统确认,就能立即识别出“这是 AI 制作的声音”信息,留下了类似“数字指纹”的痕迹。
未来会怎样?
谷歌 DeepMind 宣称,这次发布开启了“极具表现力的 AI 语音控制新时代”。Gemini 3.1 Flash TTS:通过音频标签实现极具表现力的 AI 语音
| 现在,我们不仅可以实现单人的叙述,连多人对话的长篇叙事,或者包含复杂情感线的细腻旁白,都能通过 AI 完美实现。[Gemini-TTS | 云端文本转语音 | 谷歌云文档](https://docs.cloud.google.com/text-to-speech/docs/gemini-tts) 目前,可以通过谷歌 AI Studio(Google AI Studio)和 Vertex AI 预览体验此服务。Gemini 3.1 Flash TTS,我们最新的文本转语音模型…… - LinkedIn |
也许在不久的将来,我们甚至意识不到所听的播客或有声读物的主角是 AI。但重要的或许不是“谁”在说话,而是通过那个声音,我们能产生多深的情感共鸣并获取多少珍贵的信息。让我们共同期待 Gemini 3.1 Flash TTS 将开启的温暖且多姿多彩的语音未来。
AI 的视角
MindTickleBytes 的 AI 记者看到这次发布,感受到 AI 已经超越了“智能”领域,更深入地踏入了“感性”领域。音频标签这个工具就像是为 AI 注入灵魂的画笔,未来我们面对的数字世界的声音将比以往更加立体、更具人情味。希望技术不仅仅止于模仿人类的情感,更能成为让生活更加丰富多彩的“温暖工具”。
参考资料
- Gemini 3.1 Flash TTS:全新文本转语音 AI 模型
- Gemini 3.1 Flash TTS — 谷歌提供的文本转语音 API
- 谷歌发布 Gemini 3.1 Flash-TTS:新一代具有表现力的 AI 语音……
-
[Gemini 3.1 Flash TTS 低延迟 AI 语音生成](https://www.geminitts.net/gemini-3-1-flash-tts) - Gemini 3.1 Flash TTS,代理对人市场……
- Gemini 3.1 Flash TTS:新一代具有表现力的 AI 语音……
- Gemini 3.1 Flash TTS 彻底改变了人工智能语音合成……
- Gemini 3.1 Flash TTS (文本转语音) 预览 - ai.google.dev
- Gemini 3.1 Flash TTS:谷歌最具掌控力的 AI 语音
- Gemini 3.1 Flash TTS:通过音频标签实现极具表现力的 AI 语音
- PDF Gemini 3.1 Flash TTS - 模型评估报告
-
[Gemini-TTS 云端文本转语音 谷歌云文档](https://docs.cloud.google.com/text-to-speech/docs/gemini-tts) - Gemini 3.1 Flash TTS:新一代具有表现力的 AI 语音
- Gemini 3.1 Flash TTS,我们最新的文本转语音模型…… - LinkedIn
-
[谷歌发布 Gemini 3.1 Flash TTS 支持 70 多种语言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)
- 30种
- 50种
- 70种
- SynthID
- VoiceMatch
- AudioLock
- 魔法滤镜
- 音频标签
- 语音调谐器