告別機械音！Google Gemini 2.5 揭秘「如真人般」聲音的奧秘

AI Summary

Gemini 2.5 透過不經過文本直接生成聲音的「原生音訊」技術，使其能夠以如真人般自然的節奏和情感進行即時對話。

想像一下，您正與好久不見的好友坐在陽光普照的咖啡廳裡聊天。當您開個惡作劇的玩笑時，朋友隨即咯咯地笑出聲；當您傾訴煩惱時，對方的語調會變得沉穩，傳遞出真摯的共鳴。對話之間幾乎沒有尷尬的沉默，說話的節奏與強弱隨情況自然起伏，猶如海浪一般。

至今為止我們與 AI 的對話體驗是如何的呢？當詢問「今天天氣如何？」時，AI 會先「思考」片刻，生成文本回答，然後再用生硬的機械音讀出那些文字。就像中間夾著一位外籍翻譯員，傳達總是慢了半拍，感覺有些緩慢且枯燥。

但隨著 Google 最新模型 Gemini 2.5 的出現，這幅景象正像魔法般改變。現在，AI 能夠像「真人」一樣與我們進行即時對話，而且是用充滿細膩情感的聲音。Google 揭曉具備先進音訊生成能力的 Gemini 2.5…

為什麼這對我們的生活很重要？

這不僅僅是「AI 聲音比以前好聽了」這種程度的變化。我們與人對話時感受到的「連結感」，並不單純來自字面的意義。我們是透過聲音細微的顫抖、說話的速度、抑揚頓挫的高低來感受對方的真心。Gemini 2.5 完美掌握了這種 節律 (Prosody，句子的節奏與韻律)，消除了與機器對話的違和感，帶來如同與真人對坐般的體驗。Gemini 2.5 的先進音訊對話與生成 - aster.cloud

特別值得注意的一點是 延遲 (Latency，發出指令到產生反應的延遲時間) 顯著降低了。Gemini 2.5 的先進音訊對話與生成 - BartDay 保持對話流程不中斷在技術上是非常艱鉅的挑戰。但隨著這個問題的解決，它能成為視覺障礙者的精準嚮導，也能成為獨居長者 24 小時溫馨回應的聊天夥伴。此外，遊戲中的角色也能根據使用者的話語即時表現出憤怒或喜悅，內容的沉浸感將提升到另一個層次。

深入淺出：「母語人士 AI」的誕生秘訣

Gemini 2.5 的核心流淌著一種稱為 「原生音訊 (Native Audio)」 的技術。用我們日常生活的例子來比喻：

過去的 AI（翻譯機模式）：當收到英文信件時（輸入），先在腦中翻譯成韓文（生成文本），然後再將翻譯好的內容讀出聲音（語音轉換）。步驟多，耗時長，且在翻譯過程中，原句所包含的細微語感或情感往往會消失殆盡。

Gemini 2.5（母語人士模式）：就像一位聽到英文後，能立即以同樣的感覺與情感用韓文回答的「母語人士」。不經過轉換為文本的繁瑣過程，直接從 AI 的「大腦」中產生名為聲音的波形。Google 揭曉具備先進音訊生成能力的 Gemini 2.5…

歸功於這種「直接生成」方式，Gemini 2.5 從極短的感嘆句到長篇演講都能運用自如。甚至當使用者要求「說得再悲傷一點」或「像興奮的體育賽事播報員那樣說話」時，它已達到能細微調節聲音風格與表現力 (Performance) 的水準。Gemini Audio 是一系列先進的即時音訊模型，建立於…

這種驚人的能力已透過 Google 的智慧筆記本 NotebookLM 的「音訊概覽 (Audio Overview)」功能，以及觀察眼前事物並進行對話的未來型助手 Project Astra 證明了其實力。Gemini 2.5 的原生音訊能力

現況：思考更深，說話更快

Gemini 2.5 不僅僅是一個「口才好」的模型。根據用途，該模型分為兩位可靠的兄弟。

Gemini 2.5 Pro：這是集結了 Google 技術實力的最聰明模型。在處理複雜的數學問題或專業編碼時展現出卓越的實力。特別是作為一個能自行深思熟慮並給出邏輯回答的 「思考模型 (Thinking model)」，其能同時理解音訊、文本、影像的 多模態 (Multimodal，多感官處理) 能力是壓倒性的。Gemini 2.5：透過先進推理、多模態技術推動前沿…
Gemini 2.5 Flash：正如其名「閃電」，這是一個全力投注於速度與效率的模型。我們在智慧型手機上體驗到的即時音訊對話功能主要由該模型負責。目前在 Google AI Studio 等平台，任何人都能親自體驗這種驚人的速度。Gemini 2.5 的先進音訊對話與生成 – ONMINE

Google 並未止步於此，並在 2026 年 3 月驚喜發布了更專精於即時對話的 gemini-3.1-flash-live-preview，宣告 AI 已準備好更深入地走進我們的生活。[版本說明

Gemini API

Google AI 開發者](https://ai.google.dev/gemini-api/docs/changelog)

如果太過逼真而感到害怕？我們設有「安全裝置」

當 AI 聲音精緻到與真人難以區分時，自然會擔心「這會不會被用假聲音來詐騙？」。為此，Google 設置了重重關卡。

第一，經過名為 紅隊演練 (Red teaming，模擬駭客攻擊) 的嚴苛驗證過程。安全專家像反派一樣攻擊 AI，預先檢查並補強其是否會說出不當言論或洩漏危險資訊。Google DeepMind 的 Gemini 2.5：更自然音訊對話的 AI

第二，留下名為 SynthID 的隱形標記。這是一種在音訊中植入對聲音完全沒有影響、但在數位世界中能被明確識別的「密碼」的方式。藉此，日後能明確判別該聲音是否由 AI 所製作。[Gemini 2.5 增加原生對話與音訊生成

Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)

想像一下：我們與 AI 共同邁向的明天

Gemini 2.5 開啟的語音革命將從根本上改變我們與電腦互動的方式。現在，您可以不用敲擊鍵盤，而是在下班回家的車內與 AI 討論今天讀過的書，或像與外國朋友交談一樣自然地學習語言。

透過 Gemini Live API 實現的聲音，已足以讓人驚嘆「簡直像真人一樣」。[透過 Gemini Live API 實現的 Gemini 2.5 Flash

Vertex AI 上的生成式 AI…](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api) 在不久的將來，您智慧型手機中的 AI 可能不僅是個助理，而是能細心體察您的心情、既可靠又聰明的「人生夥伴」。

AI 的視角

在 MindTickleBytes 的 AI 記者看來，這次 Gemini 2.5 的音訊革新不僅代表技術變得更聰明，更意味著它正變得「更有溫度」。如果說以往的 AI 是傳達冰冷知識的百科全書，那麼現在它已具備從使用者顫抖的聲音中讀懂悲傷，並以相應節奏回答的共鳴能力。技術與人類透過聲音合而為一的世界，比想像中更近了。

參考資料

Gemini 2.5 的原生音訊能力
Gemini 2.5 的先進音訊對話與生成 - aster.cloud
Gemini Audio 是一系列先進的即時音訊模型，建立於…
Google 揭曉具備先進音訊生成能力的 Gemini 2.5…
Gemini 2.5 的先進音訊對話與生成 – ONMINE
Google DeepMind 的 Gemini 2.5：更自然音訊對話的 AI

[透過 Gemini Live API 實現的 Gemini 2.5 Flash

Vertex AI 上的生成式 AI…](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)

Gemini 2.5：透過先進推理、多模態技術推動前沿…
[Gemini 2.5 增加原生對話與音訊生成 Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)
Gemini 2.5 的先進音訊對話與生成 - BartDay
[版本說明 Gemini API Google AI 開發者](https://ai.google.dev/gemini-api/docs/changelog)
Google 的 Gemini AI：旨在超越 GPT-4 及更強大的多模態超級模型…
Google 開放預覽 Gemini 2.5 原生音訊對話與可控語音生成…

FACT-CHECK SUMMARY

Claims checked: 20
Claims verified: 20
Verdict: PASS

Share this article:

測試你的理解

Q1. Gemini 2.5 的「原生音訊」技術與現有 AI 語音技術最大的區別是什麼？

先寫下文本再轉換為聲音
不經過文本轉換過程直接生成音訊回應
錄製並儲存真人的聲音

Gemini 2.5 省略了傳統的「文本轉語音 (TTS)」過程，直接生成音訊，從而實現更自然、更快速的對話。

Q2. 關於 Gemini 2.5 提供的音訊生成功能中的「風格與音調」，以下說明何者正確？

使用者可以細微地調節風格與音調
AI 隨機決定風格
只能使用單一枯燥的音調

Gemini 音訊提供對風格、音調、表現力等方面的細粒度控制 (Granular control) 功能。

Q3. 用於確認 AI 生成音訊的安全性與透明度的技術是什麼？

區塊鏈
SynthID
人臉識別技術

Google 使用 SynthID 技術來識別 AI 生成的內容，並透過紅隊演練 (Red teaming) 進行安全檢查。