與 AI 的對話將變得像「真人」一樣？Google Gemini 2.5 帶來的聲音變革

AI Summary

Google Gemini 2.5 不僅能將文字轉換為聲音，更透過能直接理解並生成人類情感與細微差別的「原生音訊」功能，提供更自然的對話體驗。

想像一下。 當你早上醒來，用還帶著睡意的聲音問「今天天氣如何？」時，智慧型手機裡的 AI 不僅僅是唸出氣溫，而是親切地回答：「天氣有點冷，最好帶件薄外套喔！」或者當你看起來心情不好時，它會主動關心：「發生什麼事了嗎？聽起來聲音沒什麼精神呢。」

過去我們接觸到的人工智慧 (AI)，其實更接近於機械式地讀出我們所寫文字的「朗讀機」。無論它多麼聰明，都很難擺脫那種生硬且乾澀的「機器音」限制。然而，隨著 Google 最新人工智慧 Gemini 2.5 的出現，這番景象正發生魔法般的變化。現在，AI 不僅僅是將文字轉換為聲音，更開始親身感受對話的「氛圍」與「溫度」並進行交談。Advanced audio dialog and generation with Gemini 2.5

這為什麼很重要？ (Why It Matters)

單純讓 AI 的聲音變好聽，會為我們的生活帶來什麼變化？事實上，這項技術具有從根本上改變我們獲取資訊方式的潛力。

例如，假設你在上班途中開車時，需要閱讀一份長達數十頁的複雜經濟報告。如果傳統 AI 只是流水帳般地唸出這份報告，你可能不到 5 分鐘就會昏昏欲睡。但如果利用 Gemini 2.5 的 「多說話者對話 (Multi-speaker dialogue)」 功能，情況就完全不同了。Advanced audio dialog and generation with Gemini 2.5

輸入文字報告後，AI 會自動生成一段音訊，就像兩位專家在進行廣播 Podcast 一樣，互相交流並解釋核心內容。Advanced audio dialog and generation with Gemini 2.5 – Reddit 「這個數值為什麼會這樣變動？」、「喔，那是因為上個月的出口指標……」以此類推。透過這種對話形式聆聽資訊，可以讓人更容易且更清晰地理解內容。

此外，這項技術對於視障人士或有閱讀障礙的人來說，可以成為一個溫暖的工具，生動且豐富地傳遞世界上的資訊。因為它不僅傳達「說了什麼」，更傳達了話語中所包含的「如何說（情緒）」。

輕鬆理解：什麼是「原生音訊」？

這裡最核心的概念就是 「原生音訊 (Native Audio)」。雖然術語很陌生，但我會用一個非常簡單的比喻來解釋。

比喻來說：

傳統方式（翻譯機方式）： 就像一個完全不懂外語的人，把韓文劇本的發音寫成英文字母後照著讀。雖然能發出聲音，但因為完全不懂句子的脈絡或情感，可能會在該強調的地方聲音變小，或在奇怪的地方提高音調。

原生音訊方式 (Gemini 2.5)： 就像一位完全精通語言的朋友在讀劇本。根據上下文，在悲傷的地方聲音會細微顫抖，在喜悅的地方音調會變得明亮。這是因為它從一開始就理解並生成聲音本身。Advanced audio dialog and generation with Gemini 2.5

Gemini 是一個 多模態 (Multimodal) 模型，設計初衷就是讓它能同時學習文字、圖像、聲音和影片。Advanced audio dialog and generation with Gemini 2.5 - Google Blog 它並非先將聲音轉換成文字來理解，而是直接以聲音本身進行思考和反應。

簡單來說，Gemini 現在可以在對話中加入自然的笑聲，甚至能重現慌張時的語調。Advanced audio dialog and generation with Gemini 2.5 - aster.cloud 特別是 「情感對話 (Affective Dialog)」 功能，讓 AI 能察覺使用者的情緒狀態，並給予相應的共情反應。[Gemini 2.5 Flash with Gemini Live API

Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)

現況：目前進展到哪裡了？ (Where We Stand)

Google 已經向全世界的開發者開放了這項驚人的功能。使用 Google AI Studio 或 Vertex AI 的人已經在體驗「原生音訊」的強大能力了。Advanced audio dialog and generation with Gemini 2.5 – ONMINE

透過最近更新公開的成果更加具體：

聲音控制的魔法： Gemini 2.5 Pro 模型的聲音多樣性變得更加豐富。當使用者要求「請讀得再沉穩一點」時，它能精確遵循該細微差別，並根據內容的重要性自動調整說話速度。Introducing Google Gemini 2.5 Pro TTS on WaveSpeedAI
在噪音中也不失專注力： 即使在嘈雜的工地或風聲很大的戶外，AI 也能精準聽懂使用者的話。特別是像英文字母與數字混合的複雜產品代碼（例如：A1-2BC-34）等細節，其準確度接近 90~100%。Gemini Audio — Google DeepMind
捕捉假聲音的「數位指紋」： 由於 AI 的聲音太過逼真，人們可能會擔心有人利用它進行詐騙。為了防止這種情況，Google 在所有音訊輸出中都植入了名為 SynthID 的隱形浮水印。雖然人耳聽不到，但使用專用的辨別工具就能立即確認該聲音是否由 AI 製作，這就像是一種「識別標記」。Advanced audio dialog and generation with Gemini 2.5 – ONMINE

未來會如何發展？ (What’s Next)

Google 斷言：「對話將成為我們與 AI 溝通最核心的方式。」Advanced audio dialog and generation with Gemini 2.5 - aster.cloud 未來我們使用的所有應用程式和設備都將朝著「更容易溝通」的方向進化。

超越單純搜尋問題答案的助理，成為當我們陷入苦惱時能一起分享想法、當我們用生疏的外語交談時能自然協助翻譯的朋友。或許，以前只在電影中看到的完美 AI 伴侶，正隨著 Gemini 2.5 帶來的全新聲音，大步向我們走來。Advanced audio dialog and generation with Gemini 2.5

AI 的觀點 (AI’s Take)

MindTickleBytes AI 記者的觀點： 如果說過去的 AI 聲音像是生硬地朗讀教科書，那麼現在的 AI 已經開始理解對話中的「停頓」與「溫度」。這不僅是技術上的進步，更意味著人類與技術情感連結的新篇章已經開啟。然而，隨著聲音精緻到無法與真人區分的程度，我們社會也必須同步進行成熟的討論，以確保技術的透明度並建立倫理使用的準則。

參考資料

Advanced audio dialog and generation with Gemini 2.5
Advanced audio dialog and generation with Gemini 2.5 – ONMINE

[Introducing Google Gemini 2.5 Pro Text To Speech on WaveSpeedAI

WaveSpeedAI Blog](https://wavespeed.ai/blog/posts/introducing-google-gemini-2-5-pro-text-to-speech-on-wavespeedai/)

r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5
Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com

[Gemini 2.5 Flash with Gemini Live API

Generative AI on Vertex AI

Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)

Advanced audio dialog and generation with Gemini 2.5 – Robotics.ee
Advanced audio dialog and generation with Gemini 2.5
Advanced audio dialog and generation with Gemini 2.5 - Google Blog
Gemini Audio — Google DeepMind
Advanced audio dialog and generation with Gemini 2.5 - aster.cloud
[AdvancedaudiodialogandgenerationwithGemini2.5 AI Brief](https://www.aibrief.in/article/advanced-audio-dialog-and-generation-with-gemini-25)
Google’sGeminiAI: The Multimodal Supermodel Aiming to Outshine…
Google Opens Access toGemini2.5NativeAudioDialogand…
Google DeepMind’sGemini2.5: AI for more naturalaudiodialog

FACT-CHECK SUMMARY

Claims checked: 9
Claims verified: 9
Verdict: PASS

Share this article:

測試你的理解

Q1. Gemini 2.5 音訊技術的主要特徵之一，是能產生像兩個人在對話般的結果，這項功能是什麼？

單一語音轉換
多說話者對話 (Multi-speaker dialogue) 生成
自動翻譯錄音

Gemini 2.5 可以根據文字輸入，生成兩人對話形式的音訊摘要。

Q2. Google 為了識別音訊是否為 AI 生成而嵌入的浮水印技術名稱為何？

AudioID
SafeVoice
SynthID

為了確保透明度，Google 在所有模型的音訊輸出中都應用了 SynthID 浮水印技術。

Q3. Gemini 2.5 在嘈雜環境中也能準確掌握的資訊範例為何？

複雜的數學公式
英文字母與數字混合的產品代碼
密碼暗碼

Gemini 音訊即使在嘈雜環境下，也能準確捕捉英文字母與數字混合的產品代碼等複雜細節。