AI 甚至能讀懂我聲音中的「細微差別」?Google Gemini 音訊模型更新全解析

使用者對著智慧型手機說話,周圍散發出華麗的聲波,形象化呈現與人工智慧對話的畫面
AI Summary

Google 更新了 Gemini 2.5 音訊模型,透過不經過文本轉換、直接理解聲音的「原生音訊(Native Audio)」技術,實現了更接近人類的即時對話與精細的語音服務。

請想像一下。您現在正站在一個陌生國家、人聲鼎沸的火車站中央。您看不懂指標,火車出發時間又迫在眉睫,心裡焦急萬分。慌亂中您拿出手機,用顫抖的聲音問道:「不好意思,請問這裡去市政廳最快的方法是什麼?」

這時,AI 就像站在身邊的朋友一樣立即回答:「啊,您現在一定很慌張吧?別擔心。請到旁邊的 2 號月台,5 分鐘後進站的快車會直達市政廳!」

這不僅僅是生硬的機器音,它讀懂了您急促聲音中蘊含的細微情緒,並據此提供冷靜且迅速的資訊。這樣的場景不再是科幻電影的一幕,而是即將成為我們的日常生活。

Google 最近宣佈大幅強化了其人工智慧模型 Gemini 的音訊能力。更強大語音互動的 Gemini 音訊模型改進 本次更新不僅是讓聲音變得更好聽,更是一場從根本上改變 AI 「傾聽、理解、回答」方式的技術革新。今天我們就來一起看看這項將深度融入我們生活的聰明技術。

為什麼這很重要?

過去我們與 AI 對話時,總會感到一種微妙的「違和感」。這是因為 AI 為了處理我們的語言,必須經過複雜的步驟。

傳統方式是這樣的:首先將我們說的話轉為文字(STT,語音轉文字);接著由 AI 讀取並理解文字後,再以文字寫下回答;最後再將文字轉回機器的聲音(TTS,文字轉語音)。簡單來說,中間夾了兩次「翻譯官」。在這個過程中,必然會產生導致對話中斷的延遲,而我們聲音中蘊含的情感或細微顫抖等「質感」也往往會隨之消失。

然而,本次更新的核心——「原生音訊(Native Audio)」模型,則完全跳過了這些複雜的中間步驟。更強大語音互動的 Gemini 音訊模型改進 這種不經中間環節直接理解並生成聲音的方式,為我們帶來了三大變化:

  1. 如真人般對話的速度:說話間那種尷尬的沉寂消失了,實現了如同與真人對話般流暢的溝通。
  2. 語言障礙的徹底瓦解:透過 Google 翻譯 App 和耳機,開啟了與外國人即時無礙對話的環境。更強大語音互動的 Gemini 音訊模型改進
  3. 更聰明的處理能力:理解並執行複雜指令的「眼色」變得更快、更精準。

輕鬆理解:音訊模型的進化

1. 讀樂譜的 AI vs 直接聽演奏的 AI

舉個例子。如果說傳統的語音 AI 是「看著樂譜唱歌的人」,那麼這次更新的 Gemini 2.5 原生音訊模型就像是「直接用耳朵聽音樂並憑感覺歌唱的歌手」強化的 Gemini 音訊模型驅動更強大的語音體驗

由於它不經過文字轉換步驟,而是直接處理聲波(Waveform)本身,因此能夠掌握說話者的語調、速度,甚至是背景噪音的脈絡。更強大語音互動的 Gemini 音訊模型改進 得益於此,使用者將獲得更加個人化、更符合當下情境的體驗。轉化語音體驗:強化版 Gemini 的力量

2. 聽力更敏銳的個人助理

想像您在指派工作給助理。以前如果您說「幫我設定明天上午 9 點的鬧鐘,並告訴我 10 點會議的地點」,AI 有時只會記住一件事或給出牛頭不對馬嘴的答案。但現在,Gemini 2.5 Flash 模型的「指令遵循率(執行任務的準確度)」已從原本的 84% 提升到了 90%更強大語音互動的 Gemini 音訊模型改進

此外,在衡量 AI 執行複雜指令能力的測試(ComplexFuncBench Audio)中,它也獲得了 71.5% 的高分。這證明它不僅擅長回答,實際處理事務的能力也取得了長足進步。更強大語音互動的 Gemini 音訊模型改進

現況:哪裡可以用到?

Google 已經將這具強大的引擎快速應用於我們身邊的服務中:

特別是這次包含了「錄音室品質」的語音轉換技術,甚至可以實現如同多人對話般的多元角色配音。Google Gemini 2.5 文字轉語音更新 — 錄音室等級語音…

未來展望會如何?

Google 專家塔拉·塞納斯(Tara Sainath)提出了一個非常有趣的展望。隨著 AI 模型變得越來越聰明、快速,現在的核心將不再僅僅是軟體,而是「與硬體的協調」更強大語音互動的 Gemini 音訊模型改進 (Tara Sainath)

打個比方,即使擁有頂級超跑的引擎(AI 模型),如果輪胎或路面狀況(硬體)跟不上,也無法發揮其性能。智慧型手機的麥克風結構或處理音訊訊號的晶片(DSP)等物理裝置與 AI 神經網路的契合程度,將成為決定語音 AI 真正實力的關鍵。

教育領域的變化也將令人矚目。能夠即時聽取您的發音並像母語老師一樣予以糾正,或是根據您的程度進行對話教學的「AI 家教」,將會更貼近我們的生活。強化的 Gemini 模型提升強大的語音互動

AI 的視角

MindTickleBytes AI 記者的視角

本次 Gemini 音訊更新的意義遠不止於「增加了新功能」,更代表了「人工智慧感官的延伸」。人工智慧摘掉名為「文字」的眼鏡,開始原封不動地傾聽世界的聲音,這意味著機器與人類之間最後一道「尷尬的屏障」正在瓦解。我們正跨越向機器下達「指令」的時代,大步邁入與 AI 進行真正「對話」的時代。


參考資料

  1. Improved Gemini audio models for powerful voice interactions
  2. Improved Gemini audio models for powerful voice interactions
  3. Improved Gemini audio models for powerful voice interactions
  4. Enhanced Gemini Models Boost Powerful Voice Interactions
  5. Transforming Voice Experiences: The Power of Enhanced Gemini
  6. Google’s Gemini Audio Upgrade Is Bigger Than It Sounds: What …
  7. Enhanced Gemini Audio Models Drive More Powerful Voice Experiences
  8. Improved Gemini audio models for powerful voice interactions (Tara Sainath)
  9. Improved Gemini audio models for powerful voice interactions
  10. Improved Gemini audio models for powerful voice experiences…
  11. Improved Gemini audio models for powerful voice interactions
  12. Google Gemini 2.5 Text-to-Speech Update — Studio-Quality Voice …
  13. Build More Powerful Voice Agents with the Gemini Live API
  14. Google’s upgraded Gemini 2.5 Flash Native Audio model makes AI more …

FACT-CHECK SUMMARY

  • Claims checked: 16
  • Claims verified: 16
  • Verdict: PASS
測試你的理解
Q1. 透過本次更新,Gemini 2.5 Flash 原生音訊模型達成的『指令遵循率』是多少?
  • 84%
  • 90%
  • 71.5%
指令遵循率從更新前的 84% 提升到了 90%。
Q2. Google 翻譯 App 中全新強化的功能是什麼?
  • 拍照翻譯
  • 即時語音口譯
  • 整站翻譯
隨著 Gemini 2.5 音訊模型的改進,現在可以在 Google 翻譯 App 和耳機中使用更強大的即時語音口譯功能。
Q3. 哪位專家強調了 AI 在理解聲音時,硬體與神經網路協調的重要性?
  • 塔拉·塞納斯 (Tara Sainath)
  • 傑弗里·辛頓 (Geoffrey Hinton)
  • 山姆·奧特曼 (Sam Altman)
Google 的塔拉·塞納斯強調,隨著模型速度加快,麥克風結構、硬體限制與神經網路的協調將變得更加重要。