Google 更新了 Gemini 2.5 音訊模型,透過不經過文本轉換、直接理解聲音的「原生音訊(Native Audio)」技術,實現了更接近人類的即時對話與精細的語音服務。
請想像一下。您現在正站在一個陌生國家、人聲鼎沸的火車站中央。您看不懂指標,火車出發時間又迫在眉睫,心裡焦急萬分。慌亂中您拿出手機,用顫抖的聲音問道:「不好意思,請問這裡去市政廳最快的方法是什麼?」
這時,AI 就像站在身邊的朋友一樣立即回答:「啊,您現在一定很慌張吧?別擔心。請到旁邊的 2 號月台,5 分鐘後進站的快車會直達市政廳!」
這不僅僅是生硬的機器音,它讀懂了您急促聲音中蘊含的細微情緒,並據此提供冷靜且迅速的資訊。這樣的場景不再是科幻電影的一幕,而是即將成為我們的日常生活。
Google 最近宣佈大幅強化了其人工智慧模型 Gemini 的音訊能力。更強大語音互動的 Gemini 音訊模型改進 本次更新不僅是讓聲音變得更好聽,更是一場從根本上改變 AI 「傾聽、理解、回答」方式的技術革新。今天我們就來一起看看這項將深度融入我們生活的聰明技術。
為什麼這很重要?
過去我們與 AI 對話時,總會感到一種微妙的「違和感」。這是因為 AI 為了處理我們的語言,必須經過複雜的步驟。
傳統方式是這樣的:首先將我們說的話轉為文字(STT,語音轉文字);接著由 AI 讀取並理解文字後,再以文字寫下回答;最後再將文字轉回機器的聲音(TTS,文字轉語音)。簡單來說,中間夾了兩次「翻譯官」。在這個過程中,必然會產生導致對話中斷的延遲,而我們聲音中蘊含的情感或細微顫抖等「質感」也往往會隨之消失。
然而,本次更新的核心——「原生音訊(Native Audio)」模型,則完全跳過了這些複雜的中間步驟。更強大語音互動的 Gemini 音訊模型改進 這種不經中間環節直接理解並生成聲音的方式,為我們帶來了三大變化:
- 如真人般對話的速度:說話間那種尷尬的沉寂消失了,實現了如同與真人對話般流暢的溝通。
- 語言障礙的徹底瓦解:透過 Google 翻譯 App 和耳機,開啟了與外國人即時無礙對話的環境。更強大語音互動的 Gemini 音訊模型改進
- 更聰明的處理能力:理解並執行複雜指令的「眼色」變得更快、更精準。
輕鬆理解:音訊模型的進化
1. 讀樂譜的 AI vs 直接聽演奏的 AI
舉個例子。如果說傳統的語音 AI 是「看著樂譜唱歌的人」,那麼這次更新的 Gemini 2.5 原生音訊模型就像是「直接用耳朵聽音樂並憑感覺歌唱的歌手」。強化的 Gemini 音訊模型驅動更強大的語音體驗
由於它不經過文字轉換步驟,而是直接處理聲波(Waveform)本身,因此能夠掌握說話者的語調、速度,甚至是背景噪音的脈絡。更強大語音互動的 Gemini 音訊模型改進 得益於此,使用者將獲得更加個人化、更符合當下情境的體驗。轉化語音體驗:強化版 Gemini 的力量
2. 聽力更敏銳的個人助理
想像您在指派工作給助理。以前如果您說「幫我設定明天上午 9 點的鬧鐘,並告訴我 10 點會議的地點」,AI 有時只會記住一件事或給出牛頭不對馬嘴的答案。但現在,Gemini 2.5 Flash 模型的「指令遵循率(執行任務的準確度)」已從原本的 84% 提升到了 90%。更強大語音互動的 Gemini 音訊模型改進
此外,在衡量 AI 執行複雜指令能力的測試(ComplexFuncBench Audio)中,它也獲得了 71.5% 的高分。這證明它不僅擅長回答,實際處理事務的能力也取得了長足進步。更強大語音互動的 Gemini 音訊模型改進
現況:哪裡可以用到?
Google 已經將這具強大的引擎快速應用於我們身邊的服務中:
- Google 翻譯 (Google Translate):現在不僅可以透過 App,還能透過耳機使用即時語音口譯功能。更強大語音互動的 Gemini 音訊模型改進 這在海外旅行時與飯店或餐廳員工溝通將非常有幫助。強化的 Gemini 模型提升強大的語音互動
- Gemini Live:在智慧型手機上直接與 Gemini 聊天時,可以感受到比以往更自然、更快速的反應。Google 的 Gemini 音訊升級比聽起來更重要:內容是…
- 開發者的創新工具:開發者現在可以透過 Google AI Studio 等平台使用此模型。這意味著未來將有更多樣化、更聰明的語音服務湧現。利用 Gemini Live API 構建更強大的語音代理 Google 升級版 Gemini 2.5 Flash 原生音訊模型讓 AI 更具對話性…
特別是這次包含了「錄音室品質」的語音轉換技術,甚至可以實現如同多人對話般的多元角色配音。Google Gemini 2.5 文字轉語音更新 — 錄音室等級語音…
未來展望會如何?
Google 專家塔拉·塞納斯(Tara Sainath)提出了一個非常有趣的展望。隨著 AI 模型變得越來越聰明、快速,現在的核心將不再僅僅是軟體,而是「與硬體的協調」。更強大語音互動的 Gemini 音訊模型改進 (Tara Sainath)
打個比方,即使擁有頂級超跑的引擎(AI 模型),如果輪胎或路面狀況(硬體)跟不上,也無法發揮其性能。智慧型手機的麥克風結構或處理音訊訊號的晶片(DSP)等物理裝置與 AI 神經網路的契合程度,將成為決定語音 AI 真正實力的關鍵。
教育領域的變化也將令人矚目。能夠即時聽取您的發音並像母語老師一樣予以糾正,或是根據您的程度進行對話教學的「AI 家教」,將會更貼近我們的生活。強化的 Gemini 模型提升強大的語音互動
AI 的視角
MindTickleBytes AI 記者的視角
本次 Gemini 音訊更新的意義遠不止於「增加了新功能」,更代表了「人工智慧感官的延伸」。人工智慧摘掉名為「文字」的眼鏡,開始原封不動地傾聽世界的聲音,這意味著機器與人類之間最後一道「尷尬的屏障」正在瓦解。我們正跨越向機器下達「指令」的時代,大步邁入與 AI 進行真正「對話」的時代。
參考資料
- Improved Gemini audio models for powerful voice interactions
- Improved Gemini audio models for powerful voice interactions
- Improved Gemini audio models for powerful voice interactions
- Enhanced Gemini Models Boost Powerful Voice Interactions
- Transforming Voice Experiences: The Power of Enhanced Gemini
- Google’s Gemini Audio Upgrade Is Bigger Than It Sounds: What …
- Enhanced Gemini Audio Models Drive More Powerful Voice Experiences
- Improved Gemini audio models for powerful voice interactions (Tara Sainath)
- Improved Gemini audio models for powerful voice interactions
- Improved Gemini audio models for powerful voice experiences…
- Improved Gemini audio models for powerful voice interactions
- Google Gemini 2.5 Text-to-Speech Update — Studio-Quality Voice …
- Build More Powerful Voice Agents with the Gemini Live API
- Google’s upgraded Gemini 2.5 Flash Native Audio model makes AI more …
FACT-CHECK SUMMARY
- Claims checked: 16
- Claims verified: 16
- Verdict: PASS
- 84%
- 90%
- 71.5%
- 拍照翻譯
- 即時語音口譯
- 整站翻譯
- 塔拉·塞納斯 (Tara Sainath)
- 傑弗里·辛頓 (Geoffrey Hinton)
- 山姆·奧特曼 (Sam Altman)