如果我的 AI 助手說話像電影明星?Google 的全新聲音「Gemini 3.1 Flash TTS」

在擁有各種情感的人臉剪影之間流動著數位聲波,象徵 AI 多樣化語音表現力的圖像
AI Summary

Google 發布了具備情感表達與演技指導能力的次世代 AI 語音合成模型「Gemini 3.1 Flash TTS」,開啟了如真人般自然對話的 AI 語音時代。

您是否曾在找路或撥打客服中心電話時,因為聽到的 AI 聲音太過生硬而感到「啊,果然是機器」呢?雖然句子很完美,但總覺得那聲音少了一點靈魂。不過,那樣的時代即將結束了。因為 Google 推出了一項全新的 AI 語音技術,它能像電影演員一樣帶著情感說話,甚至讓我們能親自擔任「導演」來指導語氣。

Google DeepMind 於 2024 年 4 月 15 日公開了次世代語音合成模型 「Gemini 3.1 Flash TTS (Text-to-Speech:文字轉語音技術)」 Gemini 3.1 Flash TTS: Google’s Most Controllable AI Voice。這項技術超越了單純讀出輸入文字的層次,為聲音注入生命力,展現了全新的可能性。

為什麼這很重要? (Why It Matters)

當我們與人交談時,「語氣」和「情感」與說話內容同樣重要。即便同樣是說「你好」,在開心、悲傷或正式場合時的聲音都會有所不同。到目前為止,AI 很難捕捉到這種細微的差別。簡單來說,如果以前的 AI 聲音像是情感枯竭的機器人,現在則擁有了能根據情況變化聲音的「能力」。

Gemini 3.1 Flash TTS 讓電腦發出的聲音更像真人,且表現力更加豐富 Gemini3.1FlashTTS: Newtext-to-speechAImodel。這不僅僅是為了創造好聽的聲音,更有著深遠的意義。例如,為視障人士製作的有聲書將能傳達主角悲傷的情感,AI 助手也能根據情況溫柔地或迅速地傳達資訊。這顯示出技術正朝著理解並體貼人類情感的方向演進。

輕鬆理解:成為指導 AI 的「電影導演」 (The Explainer)

這個模型最有趣的一點是,使用者可以像電影導演一樣,詳細指示 AI 的語氣 Gemini 3.1 Flash TTS: Google’s Most Controllable AI Voice

以此類比: 如果以前的 TTS 是只會按照樂譜演奏的「自動演奏鋼琴」,那麼 Gemini 3.1 Flash TTS 就像是會對指揮家的手勢一一做出反應的「資深交響樂團」。當指揮家要求「這裡稍微柔軟一點」、「那裡再緊張一點」時,它能立即做出反應。

實現這一切的關鍵正是 「音訊標記 (Audio Tags)」 Google UnveilsGemini3.1Flash-TTS:TheNextGenerationof…。Gemini 3.1 Flash TTS 包含 200 多個精細的音訊標記 [Google Launches Gemini 3.1 Flash TTS 70+ Languages](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)。使用者可以在文字中間加入特別的指令,決定 AI 要以什麼語調、什麼情感、什麼速度來說話 Gemini3.1FlashTTS: Newtext-to-speechAImodel

想像一下: 當您要求 AI 朗讀給父母的生日祝賀訊息時,不只是給它文字,還能命令它「用溫柔的聲音開始」、「說出我愛你之前稍微停頓一下」、「最後用開朗有力的聲音結尾」。這個模型能精準理解並執行這類細膩的「演技指導」 Gemini 3.1 Flash TTS: Expressive AI Speech with Audio Tags

實力派 AI 的登場:兼顧性能與安全 (Where We Stand)

Gemini 3.1 Flash TTS 不僅功能眾多,在客觀實力上也位居業界領先地位。

  1. 壓倒性的品質評分:該模型在衡量 AI 語音模型實力的「Artificial Analysis TTS 排行榜」中獲得了 1,211 分的 Elo 評分 Google’s Gemini 3.1 Flash TTS Adds Natural Language Voice Controls and …比喻來說,就像職業棋手透過積分證明實力一樣,它在 AI 語音模型中證明了自己是頂尖的「實力派」。在目前的競爭服務中,這屬於性價比最高的水平。
  2. 全球溝通能力:支援全球 70 多種語言,並提供 30 種全新的對話式聲音選項 Gemini3.1FlashTTS—text-to-speechAPI by Google。特別是在 Google Workspace 的影片製作工具「Google Vids」中,已有 24 種語言的 30 種語音選項可供立即使用 Google Workspace Updates: New moreexpressiveAIvoiceovers in…
  3. 防止偽造語音:當 AI 說話太像真人時,難免會有被濫用的疑慮。為此,Google 應用了 SynthID 浮水印 (SynthID watermarking) 技術 Gemini 3.1 Flash TTS is Google’s new powerhouse text-to-speech model。這是在聲音中加入人耳聽不到的數位印記(浮水印),以便日後確認該聲音是否由 AI 製作。可以理解為像在鈔票中埋入隱藏圖案一樣,在聲音中植入安全裝置。

現狀:在哪裡可以見到它? (What’s Next)

Gemini 3.1 Flash TTS 目前以面向開發者的公開預覽版 (Public Preview) 形式提供 Gemini 3.1 Flash TTS: Google’s Most Controllable AI Voice。開發者可以透過 Google AI Studio、Vertex AI 或 Gemini API 將這項強大的技術整合到自己的 App 或服務中 Gemini 3.1 Flash TTS, our latest text-to-speech model … - LinkedIn

此外,如前所述,Google Vids 的使用者已經可以利用這些更豐富的 AI 語音來為影片配音 Google Workspace Updates: New moreexpressiveAIvoiceovers in…。在不久的將來,我們也將在每天使用的智慧型手機或汽車助手上聽到這些充滿情感的聲音。

結語

Gemini 3.1 Flash TTS 的出現,將使我們與技術交流的方式變得更加人性化。它不再只是執行指令的機器,而是一個能理解我們的處境與情感,並以相應聲音回應的夥伴。

未來,我們將在更多樣化的 App 和網站中遇見這款聰明且表現力十足的 AI 語音。客服聊天機器人將變得更溫暖,遊戲中的角色將以更生動的聲音與我們交談。觀察 AI 所擁有的「聲音」力量能延伸到何處,將是一件非常有趣的事情。


AI 的視點:MindTickleBytes AI 記者的觀點 俗話說「良言一句三冬暖」,現在對 AI 來說,「怎麼說」也變得比什麼都重要。Gemini 3.1 Flash TTS 顯示出 AI 已準備好超越單純的聰明,開始細膩地切入人類的情感領域。這次更新讓人感覺 AI 與人類之間的距離又拉近了一步。AI 現在已不再是單純的資訊提供者,而是進化成了傳遞情感的說故事者。

參考資料

  1. Gemini3.1FlashTTS: Newtext-to-speechAImodel
  2. Gemini3.1FlashAudio (FlashLive,TTS)… — Google DeepMind
  3. Gemini3.1FlashTTS—text-to-speechAPI by Google
  4. Google UnveilsGemini3.1Flash-TTS:TheNextGenerationof…
  5. [Gemini3.1FlashTTS(Text-to-Speech) Preview Gemini API](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview)
  6. Gemini3.1FlashTTSRevolutionizes Artificial Intelligence Voice…
  7. Google Workspace Updates: New moreexpressiveAIvoiceovers in…
  8. Gemini 3.1 Flash TTS: Google’s Most Controllable AI Voice
  9. Gemini 3.1 Flash TTS, our latest text-to-speech model … - LinkedIn
  10. Gemini 3.1 Flash TTS: Expressive AI Speech with Audio Tags
  11. Google’s Gemini 3.1 Flash TTS Adds Natural Language Voice Controls and …
  12. [Google Launches Gemini 3.1 Flash TTS 70+ Languages](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)
  13. Gemini 3.1 Flash TTS is Google’s new powerhouse text-to-speech model

FACT-CHECK SUMMARY

  • Claims checked: 20
  • Claims verified: 18
  • Verdict: PASS
測試你的理解
Q1. Gemini 3.1 Flash TTS 的主要特徵之一,能讓使用者細緻調整 AI 語氣的功能是什麼?
  • 魔法按鈕
  • 音訊標記 (Audio Tags)
  • 聲音過濾器
Gemini 3.1 Flash TTS 透過 200 多個「音訊標記」,能細緻地控制語調、風格、速度等。
Q2. Google 的這款新模型總共支援多少種以上的語言?
  • 30 種
  • 50 種
  • 70 種
該模型支援全球 70 多種語言,具有廣泛的通用性。
Q3. 為了識別 AI 生成的語音並加強安全性,應用了哪項技術?
  • SynthID 浮水印
  • AI 指紋
  • 數位語音簽章
Google 在模型中加入了 SynthID 浮水印技術,以便進行安全防護與識別。