現在 AI 甚至能演繹情感?Google 新一代語音技術 'Gemini 3.1 Flash TTS' 正式亮相

視覺化多樣情感波動的圖形與 Google Gemini 標誌相結合的未來感影像
AI Summary

Google 推出新一代語音 AI 'Gemini 3.1 Flash TTS',支援 70 多種語言,且能像電影導演般精細調節語音語調與情感。

想像一下,深夜睡前父母為孩子讀童話故事的聲音。當主角身陷危機時,能感受到那份緊迫感;而在平靜的森林場景中,則能傳遞出如耳語般的溫柔暖意。過去我們在智慧型手機或導航中聽到的 AI 語音又是如何呢?雖然準確,但總難免給人一種情感匱乏的「機械音」印象。

然而,這道冰冷的界線即將被打破。Google DeepMind 於 2026 年 4 月 15 日正式公開了新一代語音合成技術 「Gemini 3.1 Flash TTS」,它能像專業配音員一樣,在說話時注入豐富的情感。Gemini 3.1 Flash TTS:Google 最具掌控力的 AI 語音

為什麼這很重要?

為什麼我們希望 AI 語音變得更自然?這不單純是為了好聽。AI 語音技術,即 TTS(Text-to-Speech,文字轉語音技術),已經深深滲透到我們生活的各個角落。

  1. 更深度的沉浸式體驗:在聆聽有聲書或教育內容時,如果 AI 能根據內容表現出悲傷或喜悅,便能超越資訊傳遞,實現情感上的交流。Google 揭曉 Gemini 3.1 Flash-TTS:新一代…
  2. 為了所有人的暖心技術:對於視障人士而言,AI 語音是為他們閱讀世界的珍貴眼睛。語音越像真人,接收資訊時的疲勞感就越少,理解度也會隨之提高。
  3. 即時溝通的演進:如果客服或對話型 AI 助理能察覺我們的當下情緒,並以相應的語調回答,我們將會感受到自己是在與真正的「夥伴」對話,而非冰冷的機器。[Gemini 3.1 Flash TTS 低延遲 AI 語音生成](https://www.geminitts.net/gemini-3-1-flash-tts)

輕鬆理解:成為 AI 語音的「電影導演」

理解 Gemini 3.1 Flash TTS 最簡單的方法就是將其比喻為 「電影導演」Gemini 3.1 Flash TTS:Google 最具掌控力的 AI 語音

如果說以前的 TTS 技術只是單純執行「朗讀這些文字」指令的誠實學生,那麼 Gemini 3.1 Flash TTS 就像是一位能精準領會導演細膩演技指導的老練演員。簡單來說,它已經超越了單純的朗讀,開始進行「表演」了。

「音訊標籤」:神奇的演出指令

這款模型的關鍵秘訣在於 「音訊標籤 (Audio Tags)」Gemini 3.1 Flash TTS:具備音訊標籤的具表現力 AI 語音

開發者或使用者可以在文字之間插入特殊標籤,向 AI 發出具體的演技指令。例如,可以要求「這裡請用耳語般的聲音說話」或「這部分請用非常興奮的語氣快速朗讀」。Google 揭曉 Gemini 3.1 Flash-TTS:新一代…

這就好比演奏者看到樂譜上寫著「強 (Forte)」或「極弱 (Pianissimo)」等記號時,會注入情感進行演奏。Google 提供多達 200 個以上這類可精細調節的標籤,為語音注入生命力。[Google 發布 Gemini 3.1 Flash TTS 支援 70+ 語言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)

用 70 多種語言傳遞真心

Gemini 3.1 Flash TTS 支援全球 70 多種語言(包含韓語)。Gemini 3.1 Flash TTS:新型文字轉語音 AI 模型 令人驚訝的不僅是支援語言的數量,還在於它能完美捕捉各語言特有的微妙抑揚頓挫與情感表達。Gemini 3.1 Flash TTS 革命化人工智慧語音…

現況:數據證明的壓倒性性能

這不只是感覺上「變好了」。在客觀的實力指標上,Gemini 3.1 Flash TTS 也取得了卓越的成績。

  • Elo score 1,211 分:在具備公信力的「Artificial Analysis TTS」排行榜評價系統中,獲得了 1,211 分的高分。Gemini 3.1 Flash TTS, Agent-to-Person marketplace… 這是經過數千次盲測,由人類親自判定「這個語音更自然」後得出的結果。PDF Gemini 3.1 Flash TTS - 模型評估報告
  • 30 種多樣化的語音:提供性別、年齡層與氛圍各異的 30 種語音選項。從專業權威的新聞主播聲音,到像朋友般親切的口氣,皆可根據情境選擇使用。Gemini 3.1 Flash TTS — Google 的文字轉語音 API
  • 眨眼般的極快速度:正如其名「Flash」,將文字轉換為語音的延遲時間 (Latency) 極短。因此,即使在即時對話服務中,也能提供流暢自然的反應。[Gemini 3.1 Flash TTS 低延遲 AI 語音生成](https://www.geminitts.net/gemini-3-1-flash-tts)

安全保障的數位指紋:「SynthID」

語音太過逼真,是否會擔心被用於犯罪?為了防止這種情況,Google 嚴格應用了名為 「SynthID」 的浮水印技術。Gemini 3.1 Flash TTS:新型文字轉語音 AI 模型 雖然人耳完全聽不見,但若透過專用系統確認,就能留下像是「數位指紋」般的資訊,立即識別出「這是由 AI 製作的聲音」。

未來展望

Google DeepMind 表示,這次發表宣告了「具表現力的 AI 語音控制新時代」正式開啟。Gemini 3.1 Flash TTS:具備音訊標籤的具表現力 AI 語音

現在我們不僅能透過 AI 實現單一說話者的朗讀,甚至能完美呈現多人口語對話的長篇敘事,或是富有複雜情感線的細膩旁白。[Gemini-TTS Cloud Text-to-Speech Google Cloud 文件](https://docs.cloud.google.com/text-to-speech/docs/gemini-tts) 目前這項服務可透過 Google AI Studio 與 Vertex AI 搶先體驗。Gemini 3.1 Flash TTS,我們最新的文字轉語音模型… - LinkedIn

或許在不久的將來,我們在聽播客或有聲書時,可能完全察覺不到主角竟是 AI。但重要的是,比起「誰」在說話,我們更應該關注透過那道聲音,我們能產生多深的情感共鳴並獲取多少珍貴資訊。讓我們共同期待 Gemini 3.1 Flash TTS 所開啟的充滿暖意且多彩多姿的語音未來。

AI 的觀點

MindTickleBytes 的 AI 記者從這次發表中感受到,AI 已經跨越了「智慧」領域,進一步踏入了「感性」領域。音訊標籤這項工具就像是賦予 AI 靈魂的畫筆,未來我們在數位世界中所遇見的聲音,將會比以往更加立體且富有北情。希望技術不只是停留在模仿人類情感的階段,更能成為豐富人類生活的「溫暖工具」。

參考資料

  1. Gemini 3.1 Flash TTS:新型文字轉語音 AI 模型
  2. Gemini 3.1 Flash TTS — Google 的文字轉語音 API
  3. Google 揭曉 Gemini 3.1 Flash-TTS:新一代…
  4. [Gemini 3.1 Flash TTS 低延遲 AI 語音生成](https://www.geminitts.net/gemini-3-1-flash-tts)
  5. Gemini 3.1 Flash TTS, Agent-to-Person marketplace…
  6. Gemini 3.1 Flash TTS:新一代具表現力的 AI 語音…
  7. Gemini 3.1 Flash TTS 革命化人工智慧語音…
  8. Gemini 3.1 Flash TTS (Text-to-Speech) 預覽 - ai.google.dev
  9. Gemini 3.1 Flash TTS:Google 最具掌控力的 AI 語音
  10. Gemini 3.1 Flash TTS:具備音訊標籤的具表現力 AI 語音
  11. PDF Gemini 3.1 Flash TTS - 模型評估報告
  12. [Gemini-TTS Cloud Text-to-Speech Google Cloud 文件](https://docs.cloud.google.com/text-to-speech/docs/gemini-tts)
  13. Gemini 3.1 Flash TTS:新一代具表現力的 AI 語音
  14. Gemini 3.1 Flash TTS,我們最新的文字轉語音模型… - LinkedIn
  15. [Google 發布 Gemini 3.1 Flash TTS 支援 70+ 語言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)
測試你的理解
Q1. Gemini 3.1 Flash TTS 總共支援多少種以上的語言?
  • 30 種
  • 50 種
  • 70 種
Gemini 3.1 Flash TTS 支援包含韓語在內的 70 多種語言。
Q2. 為了識別 AI 生成的語音,Google 應用了哪項浮水印技術?
  • SynthID
  • VoiceMatch
  • AudioLock
Google 使用 SynthID 技術來識別由 AI 創作的內容。
Q3. 作為 Gemini 3.1 Flash TTS 的最大特色之一,能精細調節語音語調或情感的功能是?
  • 魔力濾鏡
  • 音訊標籤
  • 語音調諧器
透過 200 多個「音訊標籤」,可以精確控制語音的情感、速度、語調等。