現在試著對 AI 說「請讀得悲傷一點」:Google 的次世代語音,Gemini 3.1 Flash TTS

混合了各種情感波動的音訊波形在數位背景上流動,象徵人類與 AI 溝通形象的圖片
AI Summary

Google 的全新 AI 模型「Gemini 3.1 Flash TTS」能以 70 多種語言即時生成情感豐富的語音,並提供讓使用者直接調整音調與語速的功能。

想像一下,深夜當您開啟為孩子讀童話故事的應用程式時,AI 在主角悲傷的場景中會聲音微微顫抖並緩慢朗讀;而到了歡樂的場景,則會像慶祝節日般以高昂興奮的語氣快速說話。如果說我們過去所熟知的 AI 語音是生硬且毫無靈魂的「機械音」,那麼現在情況即將發生翻天覆地的變化。

Google 於 2026 年 4 月發布了一款將開啟文字轉語音技術新篇章的模型,即 Gemini 3.1 Flash TTS(Text-to-Speech,文字轉語音技術) [Google Cloud 上的 Gemini 3.1 Flash TTS Google Cloud 網誌](https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-1-flash-tts-on-google-cloud/)。這款模型的設計初衷是超越單純的文字朗讀,將說話者深層的「情感」與細微的「語氣」都能原封不動地呈現出來 Gemini 3.1 Flash TTS:全新的文字轉語音 AI 模型

為什麼這很重要?

我們在說話時,不只是傳遞資訊。同樣的一句短語如「好啊」,在開心、生氣或勉強答應時的音調完全不同。然而,傳統的 TTS 技術很難實現這種細微的差別。專家們將其稱為「靜態語音(Static Speech)」的局限性。只要回想一下導航系統那種毫無靈魂的聲音,您就能很快理解。

Google DeepMind 解釋,這款模型的誕生正是為了突破這一局限 [Google Gemini 3.1 Flash TTS 對決 ElevenLabs 2026 Nexairi](https://www.nexairi.com/article/Technology/gemini-31-flash-tts-expressive-ai-speech/)。Gemini 3.1 Flash TTS 是一款彌補靜態語音與人類豐富表現力之間巨大鴻溝的「次世代表現型 AI 語音」模型 使用包括 Gemini、Nano 在內的次世代 AI 系統進行開發…

簡單來說,這意味著 AI 現在開始讀取的不是「文字」,而是「情境」。當這項技術融入我們的生活,將會帶來以下變化:

輕鬆理解:給 AI 的「演技指示書」

Gemini 3.1 Flash TTS 最具創新性的一點就是 「音訊標記(Audio Tags)」 功能 Gemini 3.1 Flash TTS:具備細顆粒度控制的表現力 AI 語音

像電影導演一樣下達指令

這項功能就像電影導演向演員下達「這句台詞請說得再悲傷一點,然後停頓一下再說」的「演技指示」一樣。打個比方,如果說過去只是給 AI 樂譜並讓其演奏,現在則連曲子的詮釋方式都能詳細告知。

使用者不需要學習複雜的程式碼,只需使用我們平時習慣的自然語言下達指令即可 我們最新的文字轉語音模型 Gemini 3.1 Flash TTS 已於…推出。只需在文字之間加入簡單的標記,AI 就會對語音的音調、風格、語速進行細微(Granular)的調整 Google 揭曉 Gemini 3.1 Flash-TTS:次世代的表現力 AI 語音…。AI 能即時理解並在語音中反映「請像新聞主播一樣冷靜」或「請像剛運動完的人一樣氣喘吁吁」等請求 [Gemini 3.1 Flash TTS (文字轉語音) 預覽 Gemini API](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview)。

全球各地的「你好」

該模型支援包括韓語在內的 70 多種語言 Gemini 3.1 Flash TTS 徹底改變人工智慧語音合成…。其最大的特點在於,無論使用哪種語言,都能呈現該語言固有的自然語調和情感色彩。現在,在全球任何地方都能與 AI 進行「心靈相通」的對話了 Google 的 Gemini 3.1 Flash TTS 增加表現力 AI 語音 | StartupHub.ai

現狀:它有多聰明、多安全?

這款模型在人工智慧業界已證明其具備壓倒性的性能。在 AI 分析平台「Artificial Analysis」的 TTS 排行榜上,它以 1,211 分的驚人 Elo 分數 榮登榜首 Gemini 3.1 Flash TTS,代理對個人市場…

此外,由於採用了 低延遲(Low-latency) 技術,下達指令後幾乎沒有延遲,能即時生成語音 [Gemini 3.1 Flash TTS (文字轉語音) 預覽 Gemini API](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview)。這意味著當我們與 AI 助手即時對話時,能像與真人對話一樣實現自然流暢的溝通。

看不見的安全裝置:SynthID 浮水印

當語音與人類過於相似時,您是否擔心會被誤用於假新聞或冒名犯罪?為了消除這些疑慮,Google 全面引入了 SynthID 浮水印 技術 Gemini 3.1 Flash TTS:全新的文字轉語音 AI 模型

這是一種「看不見的數位印章」。雖然我們耳朵完全聽不見,但音訊數據中隱藏著標記,只要使用專用的檢測技術,就能 100% 確認該語音是由 AI 生成的 Google 揭曉 Gemini 3.1 Flash-TTS:次世代的表現力 AI 語音…。這展現了在技術飛速發展的同時,Google 也致力於履行社會責任 [Google 的 Gemini 3.1 Flash TTS 增加表現力 AI 語音 StartupHub.ai](https://www.startuphub.ai/ai-news/ai-research/2026/google-s-gemini-3-1-flash-tts-adds-expressive-ai-voice)。

未來會如何發展?

目前 Gemini 3.1 Flash TTS 已在 Google AI Studio 和企業級平台 Vertex AI 上提供預覽(Preview)版本 [Gemini 3.1 Flash TTS (文字轉語音) 預覽 Gemini API](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview) [版本說明 Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog)。

未來,全球無數的開發者和企業將無窮無盡地應用這項技術 Gemini 3.1 Flash TTS:全新的文字轉語音 AI 模型 - TechAIApp。不久後,我們將在智慧型手機 App、汽車導航、客戶服務中心等日常生活中的各個角落,遇見更懂我們心思的「聰明且親切的語音」。

AI 技術曾經感覺遙不可及,現在卻已進入能以與我們相同的情感頻率與我們交談的時代。您想與 AI 進行什麼樣的溫馨對話呢?

參考資料

  1. Gemini 3.1 Flash TTS:全新的文字轉語音 AI 模型
  2. Google 揭曉 Gemini 3.1 Flash-TTS:次世代的表現力 AI 語音…
  3. [Gemini 3.1 Flash TTS (文字轉語音) 預覽 Gemini API](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview)
  4. [Google Gemini 3.1 Flash TTS 對決 ElevenLabs 2026 Nexairi](https://www.nexairi.com/article/Technology/gemini-31-flash-tts-expressive-ai-speech/)
  5. 使用包括 Gemini、Nano 在內的次世代 AI 系統進行開發…
  6. 我們最新的文字轉語音模型 Gemini 3.1 Flash TTS 已於…推出
  7. Gemini 3.1 Flash TTS,代理對個人市場…
  8. Google 揭曉 Gemini 3.1 Flash TTS:超擬真、全可控 AI 語音生成的新時代…
  9. Gemini 3.1 Flash TTS Studio – 線上建立 AI 語音
  10. Gemini 3.1 Flash TTS 徹底改變人工智慧語音合成…
  11. Gemini 3.1 Flash TTS:具備細顆粒度控制的表現力 AI 語音
  12. [Google Cloud 上的 Gemini 3.1 Flash TTS Google Cloud 網誌](https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-1-flash-tts-on-google-cloud/)
  13. [版本說明 Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog)
  14. Gemini 3.1 Flash TTS:全新的文字轉語音 AI 模型 - TechAIApp
  15. [Google 的 Gemini 3.1 Flash TTS 增加表現力 AI 語音 StartupHub.ai](https://www.startuphub.ai/ai-news/ai-research/2026/google-s-gemini-3-1-flash-tts-adds-expressive-ai-voice)

FACT-CHECK SUMMARY

  • Claims checked: 17
  • Claims verified: 17
  • Verdict: PASS
測試你的理解
Q1. 在 Gemini 3.1 Flash TTS 中,為了調整語音音調或風格而引入的功能名稱是什麼?
  • 語音控制器
  • 音訊標記
  • 魔法語音
Google 引入了「音訊標記(Audio Tags)」功能,可透過自然語言指令細微地調整語音的風格、語速和表達方式。
Q2. Gemini 3.1 Flash TTS 支援的語言總共超過多少種?
  • 30 種
  • 50 種
  • 70 種
該模型支援全球 70 多種語言,旨在服務各種不同的文化圈。
Q3. 為了識別 AI 生成的音訊並提高安全性而採用的技術是什麼?
  • SynthID 浮水印
  • AI 勾選標記
  • 數位簽章
為了安全起見,Google 採用了 SynthID 浮水印技術,在 AI 生成的音訊中留下不可見的標記。