Google 升級了 Gemini 2.5 原生音訊模型,讓原本像機器人的 AI 語音變得如真人般自然,並大幅增強了即時對話功能。
想像一下。在一個陌生的外國城市咖啡廳裡,你與一位初次見面的當地人相對而坐。雖然彼此的語言一個字也不懂,但只要一人戴上一隻耳機,就能像認識多年的老友般自在地聊天。當我用中文問「這附近最好吃的甜點是什麼?」時,對方的耳中立刻傳來自然的當地語言。當對方露出燦爛笑容回答時,我的耳中也會傳來溫暖的中文語音。
這聽起來像科幻電影中的場景,但現在已成為我們日常生活的一部分。Google 最近宣布對其人工智慧 (AI) 模型 Gemini 的「聽覺」與「語音」進行了突破性的升級。為強大語音互動而改進的 Gemini 音訊模型 這不只是聲音變得更好聽一點而已。AI 現在能更深層地理解我們的言語,包含人類特有的細微情感,並僅憑語音就能俐落地協助處理複雜的工作。今天我們將化身親切的導遊,帶您一一了解這些驚人的變化將如何改變我們的生活。
為什麼這很重要?
事實上,到目前為止我們所體驗到的 AI 語音,總讓人覺得帶點「機器感」。像是導航說著「重新搜尋路徑」,或是客服中心的自動回覆語音,句尾總是硬邦邦的,感受不到情感。這是為什麼呢?簡單來說,是因為現有的技術是基於 AI 閱讀文字的方式。在將文字「翻譯」成聲音的過程中,人類對話特有的節奏感或情感就枯竭了。
但這次升級的 Gemini 2.5 原生音訊 (Native Audio,讓 AI 直接將聲音理解為數據的技術) 模型則從根本上不同。正如「原生」一詞所象徵的,這個模型不需要經過將聲音轉化為文字再解釋的繁瑣過程。它直接聆聽聲音本身,並掌握其中蘊含的細微差別。為強大語音互動而改進的 Gemini 音訊模型
比喻來說,這就像是一個一邊逐行讀譜一邊勉強演奏的初學者,與一個一聽到音樂就能立刻融入情感即興演奏的「天才音樂家」之間的差異。多虧了這項技術,現在 Gemini 已經能察覺到我們說話時夾雜的輕微嘆息、猶豫的呼吸聲,甚至是音調的細微變化。回覆的語氣也因此變得更加自然順暢。增強型 Gemini 音訊模型推動更強大的語音…
輕鬆搞懂:有哪些變化?
這次更新的核心變化大致可以分為三個方面。
1. 「像真人一樣充滿情感地說話」
Google 大幅強化了 Gemini 2.5 Flash 和 Pro 模型的 TTS (Text-to-Speech,文字轉語音) 功能。現在 AI 會根據句子的語境自動調節說話速度。例如,在緊急情況下會說得快一點,在需要安慰的情況下則會用沉穩緩慢的語氣溝通。此外,在朗讀出現多個角色的童話書時,也能發揮各個人物的個性,進行生動的表演。Google 轉型語音 AI:Gemini 2.5 文字轉語音模型… Google DeepMind 研究團隊對此評價道:「AI 語音向人類領域邁出了巨大的一步。」Google 轉型語音 AI:Gemini 2.5 文字轉語音模型…
2. 「被打斷也不會驚慌失措」
回想一下我們和朋友聊天的時候。是不是常在對方話還沒說完就點頭附和,或者有了疑問就中途插話?以前的 AI 必須默默等到自己把話說完為止。但現在 Gemini 具備了 多輪對話 (Multi-turn conversation,多次往返的對話) 的能力,即使中途被打斷或插話,也能自然地做出反應並繼續對話。Google 的 Gemini 音訊升級比聽起來更重要:內容是… 對話流程如行雲流水般連貫,讓人真的有一種與人相對而坐、自在聊天的感覺。為強大語音互動而改進的 Gemini 音訊模型
3. 「只要動動口,就能自動執行 App」
一項被稱為 函式呼叫 (Function Calling) 的功能得到了強化。簡單來說,就是 AI 聽取我的聲音並實際執行「行動」的能力。比喻來說,這就像跟聰明的秘書說「明天早上 7 點叫醒我」,秘書就會直接幫你設定好鬧鐘一樣。現在即使是在比以前更複雜且混雜噪音的環境中,AI 也能精確聽懂使用者的指令並執行手機功能。Google 的 Gemini 音訊升級比聽起來更重要:內容是…
現況:哪裡可以使用?
這些驚人的技術已經開始應用於我們周遭的服務中。
- Google 翻譯 (Google Translate):現在只要戴上耳機,就能使用即時語音翻譯功能。為強大語音互動而改進的 Gemini 音訊模型 在海外旅遊問路或在餐廳點餐時,你將體驗到語言隔閡消失的魔法。增強型 Gemini 模型提升強大的語音互動
- Gemini Live:這是在智慧型手機上與 AI 進行即時語音對話的服務。現在你可以用更親切自然的聲音進行煩惱諮詢,或詢問複雜的知識。Google 的 Gemini 音訊升級比聽起來更重要:內容是…
- 商業現場:企業正利用透過 Google Cloud 提供的 API (應用程式編程介面),打造更精緻的 AI 客服專員。即使是像申請貸款或商品諮詢這樣複雜的業務,現在 AI 也能用柔和的聲音提供協助。增強型 Gemini 語音模型提升互動音訊能力
在性能方面也有令人驚訝的數據。Gemini 2.5 原生音訊模型在綜合評估語音助手能力的「ComplexFuncBenchAudio」基準測試中,獲得了 71.5% 的高分。為強大語音互動而改進的 Gemini 音訊模型 這意味著 AI 已經準備好超越簡單的對話,去執行現實生活中的複雜指令。
未來展望
Google 的這次舉動不僅僅是打造一個「會說話的 AI」,更將在我們生活的各個領域掀起巨大的浪潮。
- 教育領域:現在 AI 導師將即時聽取我的發音,並像母語人士一樣進行矯正。這相當於請到了一位能根據學習者程度調節語速的親切 1:1 家教。增強型 Gemini 模型提升強大的語音互動
- 觀光與服務:因語言不通而經歷的種種不便將會消失。在飯店大廳或機場櫃檯,工作人員藉助 AI 的幫助,與全世界任何人都能無障礙溝通的景象將成為日常。增強型 Gemini 模型提升強大的語音互動
當然,AI 尚未達到完美的境界。雖然 71.5% 的分數很出色,但換句話說,仍存在約 28.5% 犯錯的可能性。為強大語音互動而改進的 Gemini 音訊模型 但從技術發展的速度來看,或許不久之後,在與 AI 結束對話後,我們會隨口說出一句:「你真的像真人一樣溫暖呢!」這樣的讚美。
AI 的觀點
這次更新的重要意義在於,AI 突破了「文字」的狹隘框架,開始直接感受「聲音」這個更寬廣且立體的世界。期待這項消除語言障礙、縮短技術與人之間心理距離的變化,能讓我們的生活變成一個更具連結且溫暖的空間。
參考資料
- Improved Gemini audio models for powerful voice interactions
- Google’s Gemini Audio Upgrade Is Bigger Than It Sounds: What …
- Improved Gemini audio models for powerful voice interactions
- Improved Gemini audio models for powerful voice interactions
- Enhanced Gemini Audio Models Drive More Powerful Voice …
- Improved Gemini audio models for powerful voice interactions
- Enhanced Gemini Models Boost Powerful Voice Interactions
- Gemini Audio Models Upgrade Voice Interactions - theoutpost.ai
- Enhanced Gemini voice models boost interactive audio capabilities
- Google Transforms Voice AI: Gemini 2.5 Text-to-Speech Models …
- Build More Powerful Voice Agents with the Gemini Live API
FACT-CHECK SUMMARY
- Claims checked: 15
- Claims verified: 15
- Verdict: PASS
- 將文字轉換為圖片
- 透過耳機進行即時語音翻譯
- 離線字典功能
- 50.5%
- 61.5%
- 71.5%
- 實現多種角色的對話
- 可調整說話速度
- 完全感受不到情感的機械語調