與 AI 聊天的時代？Google Gemini 開始說得更像真人了

AI Summary

Google 升級了 Gemini 2.5 原生音訊模型，讓原本像機器人的 AI 語音變得如真人般自然，並大幅增強了即時對話功能。

想像一下。在一個陌生的外國城市咖啡廳裡，你與一位初次見面的當地人相對而坐。雖然彼此的語言一個字也不懂，但只要一人戴上一隻耳機，就能像認識多年的老友般自在地聊天。當我用中文問「這附近最好吃的甜點是什麼？」時，對方的耳中立刻傳來自然的當地語言。當對方露出燦爛笑容回答時，我的耳中也會傳來溫暖的中文語音。

這聽起來像科幻電影中的場景，但現在已成為我們日常生活的一部分。Google 最近宣布對其人工智慧 (AI) 模型 Gemini 的「聽覺」與「語音」進行了突破性的升級。為強大語音互動而改進的 Gemini 音訊模型這不只是聲音變得更好聽一點而已。AI 現在能更深層地理解我們的言語，包含人類特有的細微情感，並僅憑語音就能俐落地協助處理複雜的工作。今天我們將化身親切的導遊，帶您一一了解這些驚人的變化將如何改變我們的生活。

為什麼這很重要？

事實上，到目前為止我們所體驗到的 AI 語音，總讓人覺得帶點「機器感」。像是導航說著「重新搜尋路徑」，或是客服中心的自動回覆語音，句尾總是硬邦邦的，感受不到情感。這是為什麼呢？簡單來說，是因為現有的技術是基於 AI 閱讀文字的方式。在將文字「翻譯」成聲音的過程中，人類對話特有的節奏感或情感就枯竭了。

但這次升級的 Gemini 2.5 原生音訊 (Native Audio，讓 AI 直接將聲音理解為數據的技術) 模型則從根本上不同。正如「原生」一詞所象徵的，這個模型不需要經過將聲音轉化為文字再解釋的繁瑣過程。它直接聆聽聲音本身，並掌握其中蘊含的細微差別。為強大語音互動而改進的 Gemini 音訊模型

比喻來說，這就像是一個一邊逐行讀譜一邊勉強演奏的初學者，與一個一聽到音樂就能立刻融入情感即興演奏的「天才音樂家」之間的差異。多虧了這項技術，現在 Gemini 已經能察覺到我們說話時夾雜的輕微嘆息、猶豫的呼吸聲，甚至是音調的細微變化。回覆的語氣也因此變得更加自然順暢。增強型 Gemini 音訊模型推動更強大的語音…

輕鬆搞懂：有哪些變化？

這次更新的核心變化大致可以分為三個方面。

1. 「像真人一樣充滿情感地說話」

Google 大幅強化了 Gemini 2.5 Flash 和 Pro 模型的 TTS (Text-to-Speech，文字轉語音) 功能。現在 AI 會根據句子的語境自動調節說話速度。例如，在緊急情況下會說得快一點，在需要安慰的情況下則會用沉穩緩慢的語氣溝通。此外，在朗讀出現多個角色的童話書時，也能發揮各個人物的個性，進行生動的表演。Google 轉型語音 AI：Gemini 2.5 文字轉語音模型… Google DeepMind 研究團隊對此評價道：「AI 語音向人類領域邁出了巨大的一步。」Google 轉型語音 AI：Gemini 2.5 文字轉語音模型…

2. 「被打斷也不會驚慌失措」

回想一下我們和朋友聊天的時候。是不是常在對方話還沒說完就點頭附和，或者有了疑問就中途插話？以前的 AI 必須默默等到自己把話說完為止。但現在 Gemini 具備了 多輪對話 (Multi-turn conversation，多次往返的對話) 的能力，即使中途被打斷或插話，也能自然地做出反應並繼續對話。Google 的 Gemini 音訊升級比聽起來更重要：內容是… 對話流程如行雲流水般連貫，讓人真的有一種與人相對而坐、自在聊天的感覺。為強大語音互動而改進的 Gemini 音訊模型

3. 「只要動動口，就能自動執行 App」

一項被稱為 函式呼叫 (Function Calling) 的功能得到了強化。簡單來說，就是 AI 聽取我的聲音並實際執行「行動」的能力。比喻來說，這就像跟聰明的秘書說「明天早上 7 點叫醒我」，秘書就會直接幫你設定好鬧鐘一樣。現在即使是在比以前更複雜且混雜噪音的環境中，AI 也能精確聽懂使用者的指令並執行手機功能。Google 的 Gemini 音訊升級比聽起來更重要：內容是…

現況：哪裡可以使用？

這些驚人的技術已經開始應用於我們周遭的服務中。

Google 翻譯 (Google Translate)：現在只要戴上耳機，就能使用即時語音翻譯功能。為強大語音互動而改進的 Gemini 音訊模型在海外旅遊問路或在餐廳點餐時，你將體驗到語言隔閡消失的魔法。增強型 Gemini 模型提升強大的語音互動
Gemini Live：這是在智慧型手機上與 AI 進行即時語音對話的服務。現在你可以用更親切自然的聲音進行煩惱諮詢，或詢問複雜的知識。Google 的 Gemini 音訊升級比聽起來更重要：內容是…
商業現場：企業正利用透過 Google Cloud 提供的 API (應用程式編程介面)，打造更精緻的 AI 客服專員。即使是像申請貸款或商品諮詢這樣複雜的業務，現在 AI 也能用柔和的聲音提供協助。增強型 Gemini 語音模型提升互動音訊能力

在性能方面也有令人驚訝的數據。Gemini 2.5 原生音訊模型在綜合評估語音助手能力的「ComplexFuncBenchAudio」基準測試中，獲得了 71.5% 的高分。為強大語音互動而改進的 Gemini 音訊模型這意味著 AI 已經準備好超越簡單的對話，去執行現實生活中的複雜指令。

未來展望

Google 的這次舉動不僅僅是打造一個「會說話的 AI」，更將在我們生活的各個領域掀起巨大的浪潮。

教育領域：現在 AI 導師將即時聽取我的發音，並像母語人士一樣進行矯正。這相當於請到了一位能根據學習者程度調節語速的親切 1:1 家教。增強型 Gemini 模型提升強大的語音互動
觀光與服務：因語言不通而經歷的種種不便將會消失。在飯店大廳或機場櫃檯，工作人員藉助 AI 的幫助，與全世界任何人都能無障礙溝通的景象將成為日常。增強型 Gemini 模型提升強大的語音互動

當然，AI 尚未達到完美的境界。雖然 71.5% 的分數很出色，但換句話說，仍存在約 28.5% 犯錯的可能性。為強大語音互動而改進的 Gemini 音訊模型但從技術發展的速度來看，或許不久之後，在與 AI 結束對話後，我們會隨口說出一句：「你真的像真人一樣溫暖呢！」這樣的讚美。

AI 的觀點

這次更新的重要意義在於，AI 突破了「文字」的狹隘框架，開始直接感受「聲音」這個更寬廣且立體的世界。期待這項消除語言障礙、縮短技術與人之間心理距離的變化，能讓我們的生活變成一個更具連結且溫暖的空間。

參考資料

FACT-CHECK SUMMARY

Claims checked: 15
Claims verified: 15
Verdict: PASS

Share this article:

測試你的理解

Q1. 這次更新為 Google 翻譯 App 增加了什麼核心功能？

將文字轉換為圖片
透過耳機進行即時語音翻譯
離線字典功能

Google 在翻譯 App 中導入了使用耳機的即時語音對語音翻譯功能。

Q2. Gemini 2.5 原生音訊模型在評估執行複雜任務能力的基準測試中獲得了多少分？

50.5%
61.5%
71.5%

升級後的模型在 ComplexFuncBenchAudio 基準測試中獲得了 71.5% 的分數。

Q3. 下列何者不是 Gemini 2.5 文字轉語音 (TTS) 模型的新特點？

實現多種角色的對話
可調整說話速度
完全感受不到情感的機械語調

這次更新讓 AI 語音更像真人，能夠實現自然的語速調節和多樣化的對話。