與 AI 的「真實」對話:Google Gemini 2.5 開啟的原生音訊時代

AI 與人類自然對話,音訊波形華麗躍動的未來感景象
AI Summary

Google 最新的 AI Gemini 2.5 透過無需轉換文本、直接理解並生成聲音的「原生音訊」技術,支援如真人般自然的對話以及多角色播客生成。

想像一下。清晨,您問 AI 助手:「今天心情如何?」以前,它可能會用機械式的聲音回答:「我是人工智慧,無法感受情緒。」但現在不同了。AI 從您略微沙啞的聲音中察覺到了疲憊,並以親切的語調回答:「您的聲音聽起來有點沙啞,要不要喝杯熱茶?」像親密的朋友一樣延續對話。

這不再是電影中的情節。這是 Google 推出的全新 Gemini 2.5 正在實現的景象。今天,我們將以淺顯易懂的方式為您介紹 Google 最聰明的 AI 模型如何在「聲音」領域引發革新,以及它將為我們的生活帶來哪些變化。來源:Gemini Apps’ release updates and improvements

為什麼這很重要?

過去我們與 AI 對話時,中間隔著一位隱形的「口譯員」。當我們說話時,AI 會將其轉換為文本(文字),分析文字後產生回答,再將回答轉換為機械音播放給我們。在這個過程中,聲音中蘊含的細微顫抖、喜悅或悲傷等「情緒數據」大多都消失了。

但 Gemini 2.5 不同。該模型從設計階段開始就採用了 原生多模態(Native Multimodal),也就是說,它從一開始就能同時理解並生成文本、圖像、音訊、視訊,甚至是程式碼。來源:Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com來源:Advanced audio dialog and generation with Gemini 2.5

簡單來說,Gemini 2.5 無需中間過程,直接「傾聽」並「說話」。打個比方,這就像與外國人交流時不需要透過翻譯機,而是直接交換彼此的語言與情感。因此,對話幾乎沒有延遲,且能進行像真人般自然、節奏與情感兼備的對話。來源:AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud

輕鬆理解:Gemini 2.5 音訊的三大核心武器

1. 「讀懂情緒」—— 情感對話(Affective Dialog)

Gemini 2.5 最令人驚艷的功能之一是 情感對話(Affective Dialog)來源:Gemini 2.5 Flash with Gemini Live API | Generative AI on Vertex AI | Google Cloud Documentation

此功能讓 AI 能夠掌握使用者語調中的細微差別。例如,如果您用非常興奮的聲音說:「我今天升職了!」,AI 也能以同樣興奮的語調祝賀您;相反地,對於憂鬱的聲音,它則能給予冷靜且溫暖的安慰。這意味著 AI 已超越了單純的資訊傳遞工具,進化為真正的「對話夥伴」。

2. 「獨自製作播客」—— 多角色對話生成

您聽過「NotebookLM」風格的音訊摘要嗎?Gemini 2.5 能夠根據文本輸入,直接生成兩個人對話形式的音訊來源:Advanced audio dialog and generation with Gemini 2.5

想像一下,將長篇新聞報導或複雜的報告交給 AI,並要求「幫我做成播客」,Gemini 2.5 就能瞬間生成一段音訊,由兩位主持人以問答形式生動地講解核心內容。結果非常自然且立體,就像兩位專業主持人在直播室中對話一樣。來源:r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5

3. 「無需等待的對話」—— 超低延遲技術

過去與 AI 對話時,那種「嗯… 請稍候…」的尷尬停頓是否讓您感到煩悶?Gemini 2.5,特別是 Gemini 2.5 Flash 模型,擁有極低的延遲(Low Latency)。來源:AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud

低延遲意味著在我們說完話後,AI 幾乎能立即做出反應。因此,它能實現中斷對方說話或緊接著話題等,像真人通話般流暢且具彈性的對話。這將在客戶諮詢服務或即時翻譯服務中產生巨大差異。來源:Advanced audio dialog and generation with Gemini 2.5 - Google Blog

目前現況:發展到了什麼程度?

Google 正在透過「Google AI Studio」和「Vertex AI」公開這些強大的功能,供開發者直接使用。特別是 Gemini 2.5 Pro,被評為 Google 推出過最先進的 AI 模型,兼具複雜的推理與程式開發能力。來源:Google’s Gemini 2.5 Pro: A Preview That’s Anything but Incremental,[來源:Models Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models)

但您是否擔心 AI 生成的聲音太像真人?為此,Google 引入了 SynthID 技術。Gemini 2.5 生成的所有音訊都會嵌入不可見的水印,以便日後輕鬆辨識該聲音是否由 AI 製作,從而提高了透明度。這相當於打上了隱形的數位烙印,確保了安全性。來源:Advanced audio dialog and generation with Gemini 2.5 – ONMINE來源:Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

未來會如何?

Gemini 2.5 展現的音訊技術已超越了單純的「發聲」。現在,AI 正在蛻變為一個「智慧體(Agent)」,能夠理解我們說話的方式、語調與速度中隱藏的意圖。來源:A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue - arXiv

未來將開啟無數豐富日常生活的可能性,例如與外國朋友通話時的即時變聲翻譯服務、為視障人士充滿情感地描述周圍環境的服務,以及符合個人口味的 AI 播客。不久後,我們也將迎來立體閱讀體驗,由 AI 帶動作者的情感朗讀,而非僅僅是用眼閱讀紙本書籍。來源:Gemini Audio - Google DeepMind

MindTickleBytes AI 記者觀點:Gemini 2.5 就像是同時賦予了 AI 「耳朵」與「聲帶」。AI 脫去了文本這層生硬的外殼,直接透過聲音進行交流,這將使人類與機器之間的心理距離縮短到前所未有的程度。一個跨越語言障礙、透過情緒波動連結的新溝通時代已經開啟。

參考資料

  1. Advanced audio dialog and generation with Gemini 2.5
  2. r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5
  3. Advanced audio dialog and generation with Gemini 2.5 – ONMINE
  4. Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com
  5. [Models Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models)
  6. [Gemini 2.5 Flash with Gemini Live API Generative AI on Vertex AI Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)
  7. Advanced audio dialog and generation with Gemini 2.5 - Google Blog
  8. Advanced audio dialog and generation with Gemini 2.5
  9. Google’s Gemini 2.5 Pro: A Preview That’s Anything but Incremental
  10. Gemini Audio - Google DeepMind
  11. A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue - arXiv
  12. Gemini Apps’ release updates and improvements
  13. AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud
  14. [Release notes Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog)
  15. Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

FACT-CHECK SUMMARY

  • Claims checked: 14
  • Claims verified: 14
  • Verdict: PASS
測試你的理解
Q1. Gemini 2.5 處理音訊方式的最大特點是什麼?
  • 將聲音轉換為文本後進行分析
  • 從一開始就整合並理解文本、圖像、音訊等的「多模態」方式
  • 只能處理文本
Gemini 2.5 從設計階段開始,就採用了能同時理解並生成文本、圖像、音訊等的原生多模態(Native Multimodal)架構。
Q2. 為了提高 AI 生成音訊的透明度,Google 採用的技術名稱是?
  • 浮水印掃描
  • SynthID
  • 音訊衛士
Google 在所有輸出內容中嵌入名為 SynthID 的浮水印技術,以便辨識該音訊是否為 AI 所生成。
Q3. Gemini 2.5 的「情感對話(Affective Dialog)」功能意味著什麼?
  • 理解並表達聲音情感或語調的功能
  • 極速翻譯外語的功能
  • 將多人的聲音合而為一的功能
情感對話(Affective Dialog)能在交流中掌握並生成情感細微差別或語調,使溝通更加自然。