如果我的 AI 助手说话像电影明星?谷歌新一代语音技术 'Gemini 3.1 Flash TTS'

在拥有各种情感的人物面部轮廓之间流动的数字声波,象征着 AI 丰富多样的声音表现力
AI Summary

谷歌发布了支持情感表达和表演指导的新一代 AI 语音合成模型 'Gemini 3.1 Flash TTS',开启了如同真人般自然交流的 AI 语音时代。

您在问路或拨打客服热线时,是否曾因为 AI 的声音过于生硬而感叹“果然是机器啊”?虽然句子表达很完美,但总觉得缺少一点灵魂。然而,那样的时代正在远去。谷歌推出了一项全新的 AI 语音技术,它能像电影明星一样充满情感地说话,甚至能让我们亲自担任“导演”来指导它的语调。

Google DeepMind 于 2024 年 4 月 15 日发布了新一代语音合成模型 ‘Gemini 3.1 Flash TTS’ (Text-to-Speech:文本转语音技术) Gemini 3.1 Flash TTS:谷歌最具掌控力的 AI 语音模型。这项技术不仅能将文本转化为声音,更赋予了声音生命力,展示了全新的可能性。

为什么这很重要? (Why It Matters)

当我们与人交流时,“语调”和“情感”与说话的内容同样重要。即使是同一句“你好”,在高兴、悲伤或正式场合下的声音都是完全不同的。在此之前,AI 很难捕捉到这种微妙的差异。简单来说,如果以前的 AI 语音像是一个情感枯竭的机器人,那么现在它已经具备了根据不同场景调整声音的“能力”。

Gemini 3.1 Flash TTS 让电脑发出的声音更接近真人,且表现力极其丰富 Gemini 3.1 Flash TTS:全新的文本转语音 AI 模型。这不仅仅是为了让声音更好听。例如,为视障人士准备的有声读物可以更传神地表达主角的悲伤情感,AI 助手也可以根据情况选择亲切或迅速地传递信息。这标志着技术正在向理解和体察人类情感的方向演进。

深度解析:成为指导 AI 的“电影导演” (The Explainer)

该模型最令人兴奋的一点是,用户可以像电影导演一样详细指示 AI 的说话方式 Gemini 3.1 Flash TTS:谷歌最具掌控力的 AI 语音模型

打个比方: 如果以前的 TTS 是只能按照乐谱弹奏的“自动演奏钢琴”,那么 Gemini 3.1 Flash TTS 就像是一支对指挥的每一个手势都能做出反应的“资深管弦乐团”。指挥要求“这里再温柔一点”或“那里再紧张一点”,乐团都能立即做出响应。

实现这一功能的正是 “音频标签 (Audio Tags)” 谷歌发布 Gemini 3.1 Flash-TTS:下一代表现力丰富的 AI 语音。Gemini 3.1 Flash TTS 包含了 200 多个精细的音频标签 [谷歌推出 Gemini 3.1 Flash TTS 支持 70 多种语言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)。用户可以在文本中间插入特殊的指令,来决定 AI 以什么样的音调、情感和速度说话 Gemini 3.1 Flash TTS:全新的文本转语音 AI 模型

想象一下: 当您让 AI 为父母朗读生日祝福短信时,您不仅可以提供文字,还可以命令它“以亲切的声音开始”、“在说‘我爱你’之前稍微停顿一下”、“最后以开朗有力的声音结束”。该模型能够精准地听懂并执行这种细致的“表演指导” Gemini 3.1 Flash TTS:带有音频标签的表现力 AI 语音控制

实力派 AI 登场:兼顾性能与安全 (Where We Stand)

Gemini 3.1 Flash TTS 不仅功能丰富,在客观实力方面也处于行业领先地位。

  1. 压倒性的品质得分:该模型在衡量 AI 语音模型实力的“Artificial Analysis TTS 排行榜”中获得了 1,211 点的 Elo 分数 谷歌 Gemini 3.1 Flash TTS 增加自然语言语音控制和…比喻来说,就像职业象棋选手通过累积等级分证明自己的实力一样,它在 AI 语音模型中证明了自己是顶尖的“实力派”。这在目前的竞争服务中,属于品质与成本比最高的高效水平。
  2. 全球沟通能力:支持全球 70 多种语言,并提供 30 种全新的对话语音选项 Gemini 3.1 Flash TTS — 谷歌文本转语音 API。特别是在 Google Workspace 的视频制作工具“Google Vids”中,24 种语言的 30 种语音选项已可立即使用 Google Workspace 更新:Google Vids 中新增表现力更强的 AI 配音…
  3. 防止假冒语音:如果 AI 说话太像真人,就存在被滥用的隐忧。为此,谷歌应用了 SynthID 水印技术 (SynthID watermarking) Gemini 3.1 Flash TTS 是谷歌全新的强力文本转语音模型。这是一种在声音中植入人耳无法察觉的数字印记(水印)的技术,以便日后确认该声音是否由 AI 生成。可以简单理解为在声音中埋下了像钞票防伪标识一样的安全装置。

未来展望:我们在哪里能见到它? (What’s Next)

Gemini 3.1 Flash TTS 目前以面向开发者的公开预览版 (Public Preview) 形式提供 Gemini 3.1 Flash TTS:谷歌最具掌控力的 AI 语音模型。开发者可以通过 Google AI Studio、Vertex AI 或 Gemini API 将这项强大的技术集成到自己的应用或服务中 Gemini 3.1 Flash TTS,我们最新的文本转语音模型… - LinkedIn

此外,如前所述,Google Vids 的用户已经可以使用这些更丰富的 AI 语音来为视频添加旁白 Google Workspace 更新:Google Vids 中新增表现力更强的 AI 配音…。在不久的将来,我们每天使用的智能手机或汽车助手也有望发出这种充满情感的声音。

结语

Gemini 3.1 Flash TTS 的出现将使我们与技术的沟通方式变得更加人性化。因为它不再是一个仅仅执行命令的机器,而是一个能理解我们的处境和情感,并以恰当声音做出回应的伙伴。

今后,我们将在更多的应用和网站中见到这种聪明且富有表现力的 AI 语音。客户支持聊天机器人将变得更加温暖,游戏中的角色也将以更生动的声音与我们交谈。观察 AI 所拥有的“声音”力量能延伸到何处,将是一件非常有趣的事情。


AI 视角:MindTickleBytes AI 记者的观察 俗话说“良言一句三冬暖”,现在对于 AI 来说,“怎么说”也变得比什么都重要。Gemini 3.1 Flash TTS 预示着 AI 不仅仅在变聪明,更准备好了深入触及人类的情感领域。通过这次更新,感觉 AI 与人类之间的距离又近了一步。AI 正在从单纯的信息提供者转变为传递情感的故事讲述者。

参考资料

  1. Gemini 3.1 Flash TTS:全新的文本转语音 AI 模型
  2. Gemini 3.1 Flash Audio (FlashLive, TTS)… — Google DeepMind
  3. Gemini 3.1 Flash TTS — 谷歌文本转语音 API
  4. 谷歌发布 Gemini 3.1 Flash-TTS:下一代表现力丰富的 AI 语音控制
  5. [Gemini 3.1 Flash TTS (文本转语音) 预览版 Gemini API](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview)
  6. Gemini 3.1 Flash TTS 彻底改变人工智能语音合成…
  7. Google Workspace 更新:Google Vids 中新增表现力更强的 AI 配音…
  8. Gemini 3.1 Flash TTS:谷歌最具掌控力的 AI 语音模型
  9. Gemini 3.1 Flash TTS,我们最新的文本转语音模型… - LinkedIn
  10. Gemini 3.1 Flash TTS:带有音频标签的表现力 AI 语音控制
  11. 谷歌 Gemini 3.1 Flash TTS 增加自然语言语音控制和…
  12. [谷歌推出 Gemini 3.1 Flash TTS 支持 70 多种语言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)
  13. Gemini 3.1 Flash TTS 是谷歌全新的强力文本转语音模型

FACT-CHECK SUMMARY

  • Claims checked: 20
  • Claims verified: 18
  • Verdict: PASS
测试你的理解
Q1. Gemini 3.1 Flash TTS 的主要特点之一是允许用户精细调节 AI 的语调,该功能是什么?
  • 魔术按钮
  • 音频标签 (Audio Tags)
  • 声音滤镜
Gemini 3.1 Flash TTS 通过 200 多个‘音频标签’,实现了对音调、风格、语速等的精细控制。
Q2. 谷歌的新模型总共支持多少种以上的语言?
  • 30 种
  • 50 种
  • 70 种
该模型支持全球 70 多种语言,具有广泛的通用性。
Q3. 为了识别 AI 生成的声音并增强安全性,应用了哪项技术?
  • SynthID 水印技术
  • AI 指纹
  • 数字语音签名
谷歌在模型中加入了 SynthID 水印技术,用于安全和识别。