與 AI 的「真實」對話：Google Gemini 2.5 開啟的原生音訊時代

AI Summary

Google 最新的 AI Gemini 2.5 透過無需轉換文本、直接理解並生成聲音的「原生音訊」技術，支援如真人般自然的對話以及多角色播客生成。

想像一下。清晨，您問 AI 助手：「今天心情如何？」以前，它可能會用機械式的聲音回答：「我是人工智慧，無法感受情緒。」但現在不同了。AI 從您略微沙啞的聲音中察覺到了疲憊，並以親切的語調回答：「您的聲音聽起來有點沙啞，要不要喝杯熱茶？」像親密的朋友一樣延續對話。

這不再是電影中的情節。這是 Google 推出的全新 Gemini 2.5 正在實現的景象。今天，我們將以淺顯易懂的方式為您介紹 Google 最聰明的 AI 模型如何在「聲音」領域引發革新，以及它將為我們的生活帶來哪些變化。來源：Gemini Apps’ release updates and improvements

為什麼這很重要？

過去我們與 AI 對話時，中間隔著一位隱形的「口譯員」。當我們說話時，AI 會將其轉換為文本（文字），分析文字後產生回答，再將回答轉換為機械音播放給我們。在這個過程中，聲音中蘊含的細微顫抖、喜悅或悲傷等「情緒數據」大多都消失了。

但 Gemini 2.5 不同。該模型從設計階段開始就採用了 原生多模態（Native Multimodal），也就是說，它從一開始就能同時理解並生成文本、圖像、音訊、視訊，甚至是程式碼。來源：Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com，來源：Advanced audio dialog and generation with Gemini 2.5

簡單來說，Gemini 2.5 無需中間過程，直接「傾聽」並「說話」。打個比方，這就像與外國人交流時不需要透過翻譯機，而是直接交換彼此的語言與情感。因此，對話幾乎沒有延遲，且能進行像真人般自然、節奏與情感兼備的對話。來源：AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud

輕鬆理解：Gemini 2.5 音訊的三大核心武器

1. 「讀懂情緒」—— 情感對話（Affective Dialog）

Gemini 2.5 最令人驚艷的功能之一是 情感對話（Affective Dialog）。來源：Gemini 2.5 Flash with Gemini Live API | Generative AI on Vertex AI | Google Cloud Documentation

此功能讓 AI 能夠掌握使用者語調中的細微差別。例如，如果您用非常興奮的聲音說：「我今天升職了！」，AI 也能以同樣興奮的語調祝賀您；相反地，對於憂鬱的聲音，它則能給予冷靜且溫暖的安慰。這意味著 AI 已超越了單純的資訊傳遞工具，進化為真正的「對話夥伴」。

2. 「獨自製作播客」—— 多角色對話生成

您聽過「NotebookLM」風格的音訊摘要嗎？Gemini 2.5 能夠根據文本輸入，直接生成兩個人對話形式的音訊。來源：Advanced audio dialog and generation with Gemini 2.5

想像一下，將長篇新聞報導或複雜的報告交給 AI，並要求「幫我做成播客」，Gemini 2.5 就能瞬間生成一段音訊，由兩位主持人以問答形式生動地講解核心內容。結果非常自然且立體，就像兩位專業主持人在直播室中對話一樣。來源：r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5

3. 「無需等待的對話」—— 超低延遲技術

過去與 AI 對話時，那種「嗯… 請稍候…」的尷尬停頓是否讓您感到煩悶？Gemini 2.5，特別是 Gemini 2.5 Flash 模型，擁有極低的延遲（Low Latency）。來源：AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud

低延遲意味著在我們說完話後，AI 幾乎能立即做出反應。因此，它能實現中斷對方說話或緊接著話題等，像真人通話般流暢且具彈性的對話。這將在客戶諮詢服務或即時翻譯服務中產生巨大差異。來源：Advanced audio dialog and generation with Gemini 2.5 - Google Blog

目前現況：發展到了什麼程度？

Google 正在透過「Google AI Studio」和「Vertex AI」公開這些強大的功能，供開發者直接使用。特別是 Gemini 2.5 Pro，被評為 Google 推出過最先進的 AI 模型，兼具複雜的推理與程式開發能力。來源：Google’s Gemini 2.5 Pro: A Preview That’s Anything but Incremental，[來源：Models

Gemini API

Google AI for Developers](https://ai.google.dev/gemini-api/docs/models)

但您是否擔心 AI 生成的聲音太像真人？為此，Google 引入了 SynthID 技術。Gemini 2.5 生成的所有音訊都會嵌入不可見的水印，以便日後輕鬆辨識該聲音是否由 AI 製作，從而提高了透明度。這相當於打上了隱形的數位烙印，確保了安全性。來源：Advanced audio dialog and generation with Gemini 2.5 – ONMINE，來源：Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

未來會如何？

Gemini 2.5 展現的音訊技術已超越了單純的「發聲」。現在，AI 正在蛻變為一個「智慧體（Agent）」，能夠理解我們說話的方式、語調與速度中隱藏的意圖。來源：A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue - arXiv

未來將開啟無數豐富日常生活的可能性，例如與外國朋友通話時的即時變聲翻譯服務、為視障人士充滿情感地描述周圍環境的服務，以及符合個人口味的 AI 播客。不久後，我們也將迎來立體閱讀體驗，由 AI 帶動作者的情感朗讀，而非僅僅是用眼閱讀紙本書籍。來源：Gemini Audio - Google DeepMind

MindTickleBytes AI 記者觀點：Gemini 2.5 就像是同時賦予了 AI 「耳朵」與「聲帶」。AI 脫去了文本這層生硬的外殼，直接透過聲音進行交流，這將使人類與機器之間的心理距離縮短到前所未有的程度。一個跨越語言障礙、透過情緒波動連結的新溝通時代已經開啟。

參考資料

Advanced audio dialog and generation with Gemini 2.5
r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5
Advanced audio dialog and generation with Gemini 2.5 – ONMINE
Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com
[Models Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models)

[Gemini 2.5 Flash with Gemini Live API

Generative AI on Vertex AI

Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)

Advanced audio dialog and generation with Gemini 2.5 - Google Blog
Advanced audio dialog and generation with Gemini 2.5
Google’s Gemini 2.5 Pro: A Preview That’s Anything but Incremental
Gemini Audio - Google DeepMind
A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue - arXiv
Gemini Apps’ release updates and improvements
AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud
[Release notes Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog)
Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

FACT-CHECK SUMMARY

Claims checked: 14
Claims verified: 14
Verdict: PASS

Share this article:

測試你的理解

Q1. Gemini 2.5 處理音訊方式的最大特點是什麼？

將聲音轉換為文本後進行分析
從一開始就整合並理解文本、圖像、音訊等的「多模態」方式
只能處理文本

Gemini 2.5 從設計階段開始，就採用了能同時理解並生成文本、圖像、音訊等的原生多模態（Native Multimodal）架構。

Q2. 為了提高 AI 生成音訊的透明度，Google 採用的技術名稱是？

浮水印掃描
SynthID
音訊衛士

Google 在所有輸出內容中嵌入名為 SynthID 的浮水印技術，以便辨識該音訊是否為 AI 所生成。

Q3. Gemini 2.5 的「情感對話（Affective Dialog）」功能意味著什麼？

理解並表達聲音情感或語調的功能
極速翻譯外語的功能
將多人的聲音合而為一的功能

情感對話（Affective Dialog）能在交流中掌握並生成情感細微差別或語調，使溝通更加自然。