現在 AI 甚至能演繹情感？Google 新一代語音技術 'Gemini 3.1 Flash TTS' 正式亮相

AI Summary

Google 推出新一代語音 AI 'Gemini 3.1 Flash TTS'，支援 70 多種語言，且能像電影導演般精細調節語音語調與情感。

想像一下，深夜睡前父母為孩子讀童話故事的聲音。當主角身陷危機時，能感受到那份緊迫感；而在平靜的森林場景中，則能傳遞出如耳語般的溫柔暖意。過去我們在智慧型手機或導航中聽到的 AI 語音又是如何呢？雖然準確，但總難免給人一種情感匱乏的「機械音」印象。

然而，這道冰冷的界線即將被打破。Google DeepMind 於 2026 年 4 月 15 日正式公開了新一代語音合成技術 「Gemini 3.1 Flash TTS」，它能像專業配音員一樣，在說話時注入豐富的情感。Gemini 3.1 Flash TTS：Google 最具掌控力的 AI 語音

為什麼這很重要？

為什麼我們希望 AI 語音變得更自然？這不單純是為了好聽。AI 語音技術，即 TTS（Text-to-Speech，文字轉語音技術），已經深深滲透到我們生活的各個角落。

更深度的沉浸式體驗：在聆聽有聲書或教育內容時，如果 AI 能根據內容表現出悲傷或喜悅，便能超越資訊傳遞，實現情感上的交流。Google 揭曉 Gemini 3.1 Flash-TTS：新一代…
為了所有人的暖心技術：對於視障人士而言，AI 語音是為他們閱讀世界的珍貴眼睛。語音越像真人，接收資訊時的疲勞感就越少，理解度也會隨之提高。

即時溝通的演進：如果客服或對話型 AI 助理能察覺我們的當下情緒，並以相應的語調回答，我們將會感受到自己是在與真正的「夥伴」對話，而非冰冷的機器。[Gemini 3.1 Flash TTS

低延遲 AI 語音生成](https://www.geminitts.net/gemini-3-1-flash-tts)

輕鬆理解：成為 AI 語音的「電影導演」

理解 Gemini 3.1 Flash TTS 最簡單的方法就是將其比喻為 「電影導演」。Gemini 3.1 Flash TTS：Google 最具掌控力的 AI 語音

如果說以前的 TTS 技術只是單純執行「朗讀這些文字」指令的誠實學生，那麼 Gemini 3.1 Flash TTS 就像是一位能精準領會導演細膩演技指導的老練演員。簡單來說，它已經超越了單純的朗讀，開始進行「表演」了。

「音訊標籤」：神奇的演出指令

這款模型的關鍵秘訣在於 「音訊標籤 (Audio Tags)」。Gemini 3.1 Flash TTS：具備音訊標籤的具表現力 AI 語音

開發者或使用者可以在文字之間插入特殊標籤，向 AI 發出具體的演技指令。例如，可以要求「這裡請用耳語般的聲音說話」或「這部分請用非常興奮的語氣快速朗讀」。Google 揭曉 Gemini 3.1 Flash-TTS：新一代…

這就好比演奏者看到樂譜上寫著「強 (Forte)」或「極弱 (Pianissimo)」等記號時，會注入情感進行演奏。Google 提供多達 200 個以上這類可精細調節的標籤，為語音注入生命力。[Google 發布 Gemini 3.1 Flash TTS

支援 70+ 語言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)

用 70 多種語言傳遞真心

Gemini 3.1 Flash TTS 支援全球 70 多種語言（包含韓語）。Gemini 3.1 Flash TTS：新型文字轉語音 AI 模型令人驚訝的不僅是支援語言的數量，還在於它能完美捕捉各語言特有的微妙抑揚頓挫與情感表達。Gemini 3.1 Flash TTS 革命化人工智慧語音…

現況：數據證明的壓倒性性能

這不只是感覺上「變好了」。在客觀的實力指標上，Gemini 3.1 Flash TTS 也取得了卓越的成績。

Elo score 1,211 分：在具備公信力的「Artificial Analysis TTS」排行榜評價系統中，獲得了 1,211 分的高分。Gemini 3.1 Flash TTS, Agent-to-Person marketplace… 這是經過數千次盲測，由人類親自判定「這個語音更自然」後得出的結果。PDF Gemini 3.1 Flash TTS - 模型評估報告
30 種多樣化的語音：提供性別、年齡層與氛圍各異的 30 種語音選項。從專業權威的新聞主播聲音，到像朋友般親切的口氣，皆可根據情境選擇使用。Gemini 3.1 Flash TTS — Google 的文字轉語音 API

眨眼般的極快速度：正如其名「Flash」，將文字轉換為語音的延遲時間 (Latency) 極短。因此，即使在即時對話服務中，也能提供流暢自然的反應。[Gemini 3.1 Flash TTS

低延遲 AI 語音生成](https://www.geminitts.net/gemini-3-1-flash-tts)

安全保障的數位指紋：「SynthID」

語音太過逼真，是否會擔心被用於犯罪？為了防止這種情況，Google 嚴格應用了名為 「SynthID」 的浮水印技術。Gemini 3.1 Flash TTS：新型文字轉語音 AI 模型雖然人耳完全聽不見，但若透過專用系統確認，就能留下像是「數位指紋」般的資訊，立即識別出「這是由 AI 製作的聲音」。

未來展望

Google DeepMind 表示，這次發表宣告了「具表現力的 AI 語音控制新時代」正式開啟。Gemini 3.1 Flash TTS：具備音訊標籤的具表現力 AI 語音

現在我們不僅能透過 AI 實現單一說話者的朗讀，甚至能完美呈現多人口語對話的長篇敘事，或是富有複雜情感線的細膩旁白。[Gemini-TTS

Cloud Text-to-Speech

Google Cloud 文件](https://docs.cloud.google.com/text-to-speech/docs/gemini-tts) 目前這項服務可透過 Google AI Studio 與 Vertex AI 搶先體驗。Gemini 3.1 Flash TTS，我們最新的文字轉語音模型… - LinkedIn

或許在不久的將來，我們在聽播客或有聲書時，可能完全察覺不到主角竟是 AI。但重要的是，比起「誰」在說話，我們更應該關注透過那道聲音，我們能產生多深的情感共鳴並獲取多少珍貴資訊。讓我們共同期待 Gemini 3.1 Flash TTS 所開啟的充滿暖意且多彩多姿的語音未來。

AI 的觀點

MindTickleBytes 的 AI 記者從這次發表中感受到，AI 已經跨越了「智慧」領域，進一步踏入了「感性」領域。音訊標籤這項工具就像是賦予 AI 靈魂的畫筆，未來我們在數位世界中所遇見的聲音，將會比以往更加立體且富有北情。希望技術不只是停留在模仿人類情感的階段，更能成為豐富人類生活的「溫暖工具」。

參考資料

Gemini 3.1 Flash TTS：新型文字轉語音 AI 模型
Gemini 3.1 Flash TTS — Google 的文字轉語音 API
Google 揭曉 Gemini 3.1 Flash-TTS：新一代…
[Gemini 3.1 Flash TTS 低延遲 AI 語音生成](https://www.geminitts.net/gemini-3-1-flash-tts)
Gemini 3.1 Flash TTS, Agent-to-Person marketplace…
Gemini 3.1 Flash TTS：新一代具表現力的 AI 語音…
Gemini 3.1 Flash TTS 革命化人工智慧語音…
Gemini 3.1 Flash TTS (Text-to-Speech) 預覽 - ai.google.dev
Gemini 3.1 Flash TTS：Google 最具掌控力的 AI 語音
Gemini 3.1 Flash TTS：具備音訊標籤的具表現力 AI 語音
PDF Gemini 3.1 Flash TTS - 模型評估報告
[Gemini-TTS Cloud Text-to-Speech Google Cloud 文件](https://docs.cloud.google.com/text-to-speech/docs/gemini-tts)
Gemini 3.1 Flash TTS：新一代具表現力的 AI 語音
Gemini 3.1 Flash TTS，我們最新的文字轉語音模型… - LinkedIn
[Google 發布 Gemini 3.1 Flash TTS 支援 70+ 語言](https://datanorth.ai/news/google-gemini-3-1-flash-tts-release)

Share this article:

測試你的理解

Q1. Gemini 3.1 Flash TTS 總共支援多少種以上的語言？

30 種
50 種
70 種

Gemini 3.1 Flash TTS 支援包含韓語在內的 70 多種語言。

Q2. 為了識別 AI 生成的語音，Google 應用了哪項浮水印技術？

SynthID
VoiceMatch
AudioLock

Google 使用 SynthID 技術來識別由 AI 創作的內容。

Q3. 作為 Gemini 3.1 Flash TTS 的最大特色之一，能精細調節語音語調或情感的功能是？

魔力濾鏡
音訊標籤
語音調諧器

透過 200 多個「音訊標籤」，可以精確控制語音的情感、速度、語調等。