AI 甚至能讀懂我聲音中的「細微差別」？Google Gemini 音訊模型更新全解析

AI Summary

Google 更新了 Gemini 2.5 音訊模型，透過不經過文本轉換、直接理解聲音的「原生音訊（Native Audio）」技術，實現了更接近人類的即時對話與精細的語音服務。

請想像一下。您現在正站在一個陌生國家、人聲鼎沸的火車站中央。您看不懂指標，火車出發時間又迫在眉睫，心裡焦急萬分。慌亂中您拿出手機，用顫抖的聲音問道：「不好意思，請問這裡去市政廳最快的方法是什麼？」

這時，AI 就像站在身邊的朋友一樣立即回答：「啊，您現在一定很慌張吧？別擔心。請到旁邊的 2 號月台，5 分鐘後進站的快車會直達市政廳！」

這不僅僅是生硬的機器音，它讀懂了您急促聲音中蘊含的細微情緒，並據此提供冷靜且迅速的資訊。這樣的場景不再是科幻電影的一幕，而是即將成為我們的日常生活。

Google 最近宣佈大幅強化了其人工智慧模型 Gemini 的音訊能力。更強大語音互動的 Gemini 音訊模型改進本次更新不僅是讓聲音變得更好聽，更是一場從根本上改變 AI 「傾聽、理解、回答」方式的技術革新。今天我們就來一起看看這項將深度融入我們生活的聰明技術。

為什麼這很重要？

過去我們與 AI 對話時，總會感到一種微妙的「違和感」。這是因為 AI 為了處理我們的語言，必須經過複雜的步驟。

傳統方式是這樣的：首先將我們說的話轉為文字（STT，語音轉文字）；接著由 AI 讀取並理解文字後，再以文字寫下回答；最後再將文字轉回機器的聲音（TTS，文字轉語音）。簡單來說，中間夾了兩次「翻譯官」。在這個過程中，必然會產生導致對話中斷的延遲，而我們聲音中蘊含的情感或細微顫抖等「質感」也往往會隨之消失。

然而，本次更新的核心——「原生音訊（Native Audio）」模型，則完全跳過了這些複雜的中間步驟。更強大語音互動的 Gemini 音訊模型改進這種不經中間環節直接理解並生成聲音的方式，為我們帶來了三大變化：

如真人般對話的速度：說話間那種尷尬的沉寂消失了，實現了如同與真人對話般流暢的溝通。
語言障礙的徹底瓦解：透過 Google 翻譯 App 和耳機，開啟了與外國人即時無礙對話的環境。更強大語音互動的 Gemini 音訊模型改進
更聰明的處理能力：理解並執行複雜指令的「眼色」變得更快、更精準。

輕鬆理解：音訊模型的進化

1. 讀樂譜的 AI vs 直接聽演奏的 AI

舉個例子。如果說傳統的語音 AI 是「看著樂譜唱歌的人」，那麼這次更新的 Gemini 2.5 原生音訊模型就像是「直接用耳朵聽音樂並憑感覺歌唱的歌手」。強化的 Gemini 音訊模型驅動更強大的語音體驗

由於它不經過文字轉換步驟，而是直接處理聲波（Waveform）本身，因此能夠掌握說話者的語調、速度，甚至是背景噪音的脈絡。更強大語音互動的 Gemini 音訊模型改進得益於此，使用者將獲得更加個人化、更符合當下情境的體驗。轉化語音體驗：強化版 Gemini 的力量

2. 聽力更敏銳的個人助理

想像您在指派工作給助理。以前如果您說「幫我設定明天上午 9 點的鬧鐘，並告訴我 10 點會議的地點」，AI 有時只會記住一件事或給出牛頭不對馬嘴的答案。但現在，Gemini 2.5 Flash 模型的「指令遵循率（執行任務的準確度）」已從原本的 84% 提升到了 90%。更強大語音互動的 Gemini 音訊模型改進

此外，在衡量 AI 執行複雜指令能力的測試（ComplexFuncBench Audio）中，它也獲得了 71.5% 的高分。這證明它不僅擅長回答，實際處理事務的能力也取得了長足進步。更強大語音互動的 Gemini 音訊模型改進

現況：哪裡可以用到？

Google 已經將這具強大的引擎快速應用於我們身邊的服務中：

Google 翻譯 (Google Translate)：現在不僅可以透過 App，還能透過耳機使用即時語音口譯功能。更強大語音互動的 Gemini 音訊模型改進這在海外旅行時與飯店或餐廳員工溝通將非常有幫助。強化的 Gemini 模型提升強大的語音互動
Gemini Live：在智慧型手機上直接與 Gemini 聊天時，可以感受到比以往更自然、更快速的反應。Google 的 Gemini 音訊升級比聽起來更重要：內容是…
開發者的創新工具：開發者現在可以透過 Google AI Studio 等平台使用此模型。這意味著未來將有更多樣化、更聰明的語音服務湧現。利用 Gemini Live API 構建更強大的語音代理 Google 升級版 Gemini 2.5 Flash 原生音訊模型讓 AI 更具對話性…

特別是這次包含了「錄音室品質」的語音轉換技術，甚至可以實現如同多人對話般的多元角色配音。Google Gemini 2.5 文字轉語音更新 — 錄音室等級語音…

未來展望會如何？

Google 專家塔拉·塞納斯（Tara Sainath）提出了一個非常有趣的展望。隨著 AI 模型變得越來越聰明、快速，現在的核心將不再僅僅是軟體，而是「與硬體的協調」。更強大語音互動的 Gemini 音訊模型改進 (Tara Sainath)

打個比方，即使擁有頂級超跑的引擎（AI 模型），如果輪胎或路面狀況（硬體）跟不上，也無法發揮其性能。智慧型手機的麥克風結構或處理音訊訊號的晶片（DSP）等物理裝置與 AI 神經網路的契合程度，將成為決定語音 AI 真正實力的關鍵。

教育領域的變化也將令人矚目。能夠即時聽取您的發音並像母語老師一樣予以糾正，或是根據您的程度進行對話教學的「AI 家教」，將會更貼近我們的生活。強化的 Gemini 模型提升強大的語音互動

AI 的視角

MindTickleBytes AI 記者的視角

本次 Gemini 音訊更新的意義遠不止於「增加了新功能」，更代表了「人工智慧感官的延伸」。人工智慧摘掉名為「文字」的眼鏡，開始原封不動地傾聽世界的聲音，這意味著機器與人類之間最後一道「尷尬的屏障」正在瓦解。我們正跨越向機器下達「指令」的時代，大步邁入與 AI 進行真正「對話」的時代。

參考資料

FACT-CHECK SUMMARY

Claims checked: 16
Claims verified: 16
Verdict: PASS

Share this article:

測試你的理解

Q1. 透過本次更新，Gemini 2.5 Flash 原生音訊模型達成的『指令遵循率』是多少？

84%
90%
71.5%

指令遵循率從更新前的 84% 提升到了 90%。

Q2. Google 翻譯 App 中全新強化的功能是什麼？

拍照翻譯
即時語音口譯
整站翻譯

隨著 Gemini 2.5 音訊模型的改進，現在可以在 Google 翻譯 App 和耳機中使用更強大的即時語音口譯功能。

Q3. 哪位專家強調了 AI 在理解聲音時，硬體與神經網路協調的重要性？

塔拉·塞納斯 (Tara Sainath)
傑弗里·辛頓 (Geoffrey Hinton)
山姆·奧特曼 (Sam Altman)

Google 的塔拉·塞納斯強調，隨著模型速度加快，麥克風結構、硬體限制與神經網路的協調將變得更加重要。