Google 最新的 AI Gemini 2.5 透過無需轉換文本、直接理解並生成聲音的「原生音訊」技術,支援如真人般自然的對話以及多角色播客生成。
想像一下。清晨,您問 AI 助手:「今天心情如何?」以前,它可能會用機械式的聲音回答:「我是人工智慧,無法感受情緒。」但現在不同了。AI 從您略微沙啞的聲音中察覺到了疲憊,並以親切的語調回答:「您的聲音聽起來有點沙啞,要不要喝杯熱茶?」像親密的朋友一樣延續對話。
這不再是電影中的情節。這是 Google 推出的全新 Gemini 2.5 正在實現的景象。今天,我們將以淺顯易懂的方式為您介紹 Google 最聰明的 AI 模型如何在「聲音」領域引發革新,以及它將為我們的生活帶來哪些變化。來源:Gemini Apps’ release updates and improvements
為什麼這很重要?
過去我們與 AI 對話時,中間隔著一位隱形的「口譯員」。當我們說話時,AI 會將其轉換為文本(文字),分析文字後產生回答,再將回答轉換為機械音播放給我們。在這個過程中,聲音中蘊含的細微顫抖、喜悅或悲傷等「情緒數據」大多都消失了。
但 Gemini 2.5 不同。該模型從設計階段開始就採用了 原生多模態(Native Multimodal),也就是說,它從一開始就能同時理解並生成文本、圖像、音訊、視訊,甚至是程式碼。來源:Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com,來源:Advanced audio dialog and generation with Gemini 2.5
簡單來說,Gemini 2.5 無需中間過程,直接「傾聽」並「說話」。打個比方,這就像與外國人交流時不需要透過翻譯機,而是直接交換彼此的語言與情感。因此,對話幾乎沒有延遲,且能進行像真人般自然、節奏與情感兼備的對話。來源:AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud
輕鬆理解:Gemini 2.5 音訊的三大核心武器
1. 「讀懂情緒」—— 情感對話(Affective Dialog)
Gemini 2.5 最令人驚艷的功能之一是 情感對話(Affective Dialog)。來源:Gemini 2.5 Flash with Gemini Live API | Generative AI on Vertex AI | Google Cloud Documentation
此功能讓 AI 能夠掌握使用者語調中的細微差別。例如,如果您用非常興奮的聲音說:「我今天升職了!」,AI 也能以同樣興奮的語調祝賀您;相反地,對於憂鬱的聲音,它則能給予冷靜且溫暖的安慰。這意味著 AI 已超越了單純的資訊傳遞工具,進化為真正的「對話夥伴」。
2. 「獨自製作播客」—— 多角色對話生成
您聽過「NotebookLM」風格的音訊摘要嗎?Gemini 2.5 能夠根據文本輸入,直接生成兩個人對話形式的音訊。來源:Advanced audio dialog and generation with Gemini 2.5
想像一下,將長篇新聞報導或複雜的報告交給 AI,並要求「幫我做成播客」,Gemini 2.5 就能瞬間生成一段音訊,由兩位主持人以問答形式生動地講解核心內容。結果非常自然且立體,就像兩位專業主持人在直播室中對話一樣。來源:r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5
3. 「無需等待的對話」—— 超低延遲技術
過去與 AI 對話時,那種「嗯… 請稍候…」的尷尬停頓是否讓您感到煩悶?Gemini 2.5,特別是 Gemini 2.5 Flash 模型,擁有極低的延遲(Low Latency)。來源:AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud
低延遲意味著在我們說完話後,AI 幾乎能立即做出反應。因此,它能實現中斷對方說話或緊接著話題等,像真人通話般流暢且具彈性的對話。這將在客戶諮詢服務或即時翻譯服務中產生巨大差異。來源:Advanced audio dialog and generation with Gemini 2.5 - Google Blog
目前現況:發展到了什麼程度?
| Google 正在透過「Google AI Studio」和「Vertex AI」公開這些強大的功能,供開發者直接使用。特別是 Gemini 2.5 Pro,被評為 Google 推出過最先進的 AI 模型,兼具複雜的推理與程式開發能力。來源:Google’s Gemini 2.5 Pro: A Preview That’s Anything but Incremental,[來源:Models | Gemini API | Google AI for Developers](https://ai.google.dev/gemini-api/docs/models) |
但您是否擔心 AI 生成的聲音太像真人?為此,Google 引入了 SynthID 技術。Gemini 2.5 生成的所有音訊都會嵌入不可見的水印,以便日後輕鬆辨識該聲音是否由 AI 製作,從而提高了透明度。這相當於打上了隱形的數位烙印,確保了安全性。來源:Advanced audio dialog and generation with Gemini 2.5 – ONMINE,來源:Google DeepMind’s Gemini 2.5: AI for more natural audio dialog
未來會如何?
Gemini 2.5 展現的音訊技術已超越了單純的「發聲」。現在,AI 正在蛻變為一個「智慧體(Agent)」,能夠理解我們說話的方式、語調與速度中隱藏的意圖。來源:A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue - arXiv
未來將開啟無數豐富日常生活的可能性,例如與外國朋友通話時的即時變聲翻譯服務、為視障人士充滿情感地描述周圍環境的服務,以及符合個人口味的 AI 播客。不久後,我們也將迎來立體閱讀體驗,由 AI 帶動作者的情感朗讀,而非僅僅是用眼閱讀紙本書籍。來源:Gemini Audio - Google DeepMind
MindTickleBytes AI 記者觀點:Gemini 2.5 就像是同時賦予了 AI 「耳朵」與「聲帶」。AI 脫去了文本這層生硬的外殼,直接透過聲音進行交流,這將使人類與機器之間的心理距離縮短到前所未有的程度。一個跨越語言障礙、透過情緒波動連結的新溝通時代已經開啟。
參考資料
- Advanced audio dialog and generation with Gemini 2.5
- r/singularity on Reddit: Advanced audio dialog and generation with Gemini 2.5
- Advanced audio dialog and generation with Gemini 2.5 – ONMINE
- Advanced audio dialog and generation with Gemini 2.5 - onwards.smithsvanguard.com
-
[Models Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models) -
[Gemini 2.5 Flash with Gemini Live API Generative AI on Vertex AI Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api) - Advanced audio dialog and generation with Gemini 2.5 - Google Blog
- Advanced audio dialog and generation with Gemini 2.5
- Google’s Gemini 2.5 Pro: A Preview That’s Anything but Incremental
- Gemini Audio - Google DeepMind
- A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue - arXiv
- Gemini Apps’ release updates and improvements
- AdvancedaudiodialogandgenerationwithGemini2.5- aster.cloud
-
[Release notes Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/changelog) - Google DeepMind’s Gemini 2.5: AI for more natural audio dialog
FACT-CHECK SUMMARY
- Claims checked: 14
- Claims verified: 14
- Verdict: PASS
- 將聲音轉換為文本後進行分析
- 從一開始就整合並理解文本、圖像、音訊等的「多模態」方式
- 只能處理文本
- 浮水印掃描
- SynthID
- 音訊衛士
- 理解並表達聲音情感或語調的功能
- 極速翻譯外語的功能
- 將多人的聲音合而為一的功能