Google 強化了 Gemini 2.5 及 3.1 模型中的「原生音訊」功能,超越機械化的語音,提供如真人般自然且能進行複雜對話的創新語音體驗。
AI 終於找到了「真實的聲音」
請想像一下。 在陌生外國城市的咖啡廳想要點餐卻語言不通,感到慌張的瞬間,你拿出智慧型手機向 AI 尋求協助。然而,這個 AI 不再像以前那樣用生硬的機械音閱讀句子,而是像身邊的朋友一樣,以自然的語調和語速替你開口。甚至還能即時翻譯對方的回答,那會是什麼樣的體驗呢?
根據 強大的 Gemini 音訊模型推動更強勁的語音體驗 的報導,Google DeepMind 為了讓使用者享受更自然且強大的語音體驗,大幅升級了 Gemini 模型的音訊功能。現在 AI 正超越單純將文字轉換為聲音的階段,邁向直接處理聲音數據而無需轉換過程的 「原生音訊 (Native Audio)」 時代。
為什麼這很重要?
我們在日常生活中透過聲音溝通時,傳達的不僅僅是單詞。根據說話的速度、語調以及對話的脈絡,同樣的詞彙可能具有完全不同的意義。以往的 AI 語音較接近將文字轉換為聲音的「閱讀 (TTS)」方式,難以呈現這種微妙的差別。
但透過本次更新,Gemini 具備了 如真人般對話的能力。正如 改良後的 Gemini 音訊模型實現強大的語音互動 中提到的,升級後的 Gemini 2.5 原生音訊模型提供了即時翻譯以及更強大的語音助理 (Live Agent) 功能。
這些變化將徹底改變我們的日常生活:
-
智慧線上購物:在購物中心,你可以與 AI 客服自然對話,就像與店員交談一樣挑選商品。[Gemini 2.5 Flash 原生音訊:AI 語音互動 ](https://supermaker.ai/voice/gemini-flash-native-audio/) 解釋說,這將創造出更直觀且自然的購物體驗。 - 搜尋的進化:現在無需在搜尋框打字,只要用說的詢問好奇的事項,AI 就會直接理解聲音並找出最佳答案。根據 Google Gemini 推出原生音訊模型以強化搜尋體驗,Google 正透過強化「搜尋直播 (Search Live)」功能將這種體驗化為現實。
輕鬆理解:到底什麼是「原生音訊」?
為了輕鬆理解這項技術,可以用 「看譜」 與 「演奏」 的差異來做比喻。
以往的 AI 方式就像是看著樂譜(文字),一個音符一個音符機械式地按下琴鍵。相反地,原生音訊 方式則像是一位能直接感受音樂情感與節奏並進行即興演奏的演奏者。因為能直接理解聲音而無需中間階段(文字轉換),所以能實現更生動且豐富的表現。簡單來說,AI 不僅理解語言,連「聲音的神韻」也能掌握了。
特別是 Google 推出了兩款強大的模型:
- Gemini 3.1 Flash Live:這是 Google 提供最高品質的音訊模型,在即時對話中展現出流暢且可靠的性能。Gemini 3.1 Flash Live:Google 最新的 AI 音訊模型
- Gemini 2.5 Flash & Pro:這些模型能產生如同在錄音室錄製的高品質語音。特別令人驚訝的是 「多角色對話 (Multi-character dialogue)」 功能。根據 Google Gemini 2.5 文字轉語音更新 — 錄音室品質語音… 的報導,AI 可以自然地演出多人交替發聲對話的情境。就像是一位配音員完美詮釋多個角色的廣播劇一樣。
現況:AI 的「聽力能力」考試分數是多少?
為了確認 AI 聽懂說話與處理複雜事務的能力,專家們進行了名為「ComplexFuncBenchAudio」的測試。這可以被視為一種 「AI 版的大考聽力測驗」。升級後的 Gemini 2.5 原生音訊模型在此測試中獲得了 71.5% 的高分。改良後的 Gemini 音訊模型實現強大的語音互動 這意味著 AI 不僅停留在聽懂說話的程度,精確理解並執行複雜工作指令的能力也大幅提升。
此外,這款新的音訊模型已在多個平台投入使用。根據 改良後的 Gemini 音訊模型實現強大的語音互動,開發者目前已可在「Google AI Studio」與「Vertex AI」中使用此模型,且該模型也正逐步應用於面向一般使用者的「Gemini Live」與「搜尋直播」。
此外,它還與 Google 其他 AI 工具結合(如產生視覺成果的「Nano Banana Pro」模型),提供更豐富的多媒體體驗。Gemini 2.5 Flash 原生音訊帶來更自然、更聰明的體驗
未來展望:蛻變為對話夥伴的 AI
Google 的這些舉措將使 AI 更深入地融入我們的日常生活。現在,我們或許會開始將 AI 視為溫暖的「對話夥伴」,而非冰冷的「搜尋工具」。
開發者可以透過 「Gemini Live API」打造專屬的強用語音助理 透過 Gemini Live API 打造更強大的語音代理,而使用者則能透過 Google 翻譯應用程式體驗幾乎感受不到語言隔閡的高水準即時翻譯服務。改良後的 Gemini 音訊模型實現強大的語音互動
此外,Google 在 Gemini 2.5 模型中導入了名為 「深思 (Deep Think)」 的新推理模式,使 AI 不僅能回答問題,還能進行更深層的思考與邏輯推論。Google 表示 Gemini 2.5 模型在深思模式下變得更好
最終,未來的 AI 將能從我們的語調中讀取微妙的情感,給予最適合情境的回答,並成為能俐落處理複雜工作的可靠助手。
MindTickleBytes AI 記者的觀點
Google 的這次更新顯示出 AI 正向人類領域的「感性溝通」邁進了一步。機器不僅理解人類的語言,甚至連語氣和細微差別都開始模仿,這在帶來便利的同時,也讓我們對與技術建立的關係產生了新的思考。現在,聲音不再只是單純的輸入手段(介面),而將成為 AI 與我們建立情感連結的最強大工具。或許在不久的將來,我們將生活在一個光聽 AI 的聲音就能聯想到其「個性」的時代。
參考資料
- Gemini 2.5 Native Audio upgrade, plus text-to-speech model
- Gemini 3.1 Flash Live: Google’s latest AI audio model
- Google Gemini Launches Native Audio Model for Enhanced Search
- Gemini 2.5 Flash Native Audio brings more natural, smarter
- Gemini 2.5: Our most intelligent models are getting even better
- Improved Gemini audio models for powerful voice experiences
- Google says Gemini 2.5 models are only getting better with Deep
-
[Gemini 2.5 Flash Native Audio: AI Voice Interactions ](https://supermaker.ai/voice/gemini-flash-native-audio/) -
[Google Gemini is about to sound totally different Android](https://www.androidcentral.com/apps-software/google-gemini-is-about-to-sound-totally-different) - Improved Gemini audio models for powerful voice interactions
- Improved Gemini audio models for powerful voice interactions
- Enhanced Gemini Audio Models Drive More Powerful Voice Experiences
- Improved Gemini audio models for powerful voice interactions
- Google Gemini 2.5 Text-to-Speech Update — Studio-Quality Voice …
- Build More Powerful Voice Agents with the Gemini Live API
事實查核摘要
- 查核聲明數:15
- 已驗證聲明數:14
- 結論:通過
- Gemini 2.0
- Gemini 3.1 Flash Live
- Gemini Nano
- 50.5%
- 61.5%
- 71.5%
- 多角色對話 (Multi-character dialogue)
- 即時語音翻譯
- 預先讀取使用者的想法並回答