與 AI 聊天的時代?Google Gemini 開始說得更像真人了

象徵人類與 AI 自然對話的暖色調插畫
AI Summary

Google 升級了 Gemini 2.5 原生音訊模型,讓原本像機器人的 AI 語音變得如真人般自然,並大幅增強了即時對話功能。

想像一下。在一個陌生的外國城市咖啡廳裡,你與一位初次見面的當地人相對而坐。雖然彼此的語言一個字也不懂,但只要一人戴上一隻耳機,就能像認識多年的老友般自在地聊天。當我用中文問「這附近最好吃的甜點是什麼?」時,對方的耳中立刻傳來自然的當地語言。當對方露出燦爛笑容回答時,我的耳中也會傳來溫暖的中文語音。

這聽起來像科幻電影中的場景,但現在已成為我們日常生活的一部分。Google 最近宣布對其人工智慧 (AI) 模型 Gemini 的「聽覺」與「語音」進行了突破性的升級。為強大語音互動而改進的 Gemini 音訊模型 這不只是聲音變得更好聽一點而已。AI 現在能更深層地理解我們的言語,包含人類特有的細微情感,並僅憑語音就能俐落地協助處理複雜的工作。今天我們將化身親切的導遊,帶您一一了解這些驚人的變化將如何改變我們的生活。

為什麼這很重要?

事實上,到目前為止我們所體驗到的 AI 語音,總讓人覺得帶點「機器感」。像是導航說著「重新搜尋路徑」,或是客服中心的自動回覆語音,句尾總是硬邦邦的,感受不到情感。這是為什麼呢?簡單來說,是因為現有的技術是基於 AI 閱讀文字的方式。在將文字「翻譯」成聲音的過程中,人類對話特有的節奏感或情感就枯竭了。

但這次升級的 Gemini 2.5 原生音訊 (Native Audio,讓 AI 直接將聲音理解為數據的技術) 模型則從根本上不同。正如「原生」一詞所象徵的,這個模型不需要經過將聲音轉化為文字再解釋的繁瑣過程。它直接聆聽聲音本身,並掌握其中蘊含的細微差別。為強大語音互動而改進的 Gemini 音訊模型

比喻來說,這就像是一個一邊逐行讀譜一邊勉強演奏的初學者,與一個一聽到音樂就能立刻融入情感即興演奏的「天才音樂家」之間的差異。多虧了這項技術,現在 Gemini 已經能察覺到我們說話時夾雜的輕微嘆息、猶豫的呼吸聲,甚至是音調的細微變化。回覆的語氣也因此變得更加自然順暢。增強型 Gemini 音訊模型推動更強大的語音…

輕鬆搞懂:有哪些變化?

這次更新的核心變化大致可以分為三個方面。

1. 「像真人一樣充滿情感地說話」

Google 大幅強化了 Gemini 2.5 Flash 和 Pro 模型的 TTS (Text-to-Speech,文字轉語音) 功能。現在 AI 會根據句子的語境自動調節說話速度。例如,在緊急情況下會說得快一點,在需要安慰的情況下則會用沉穩緩慢的語氣溝通。此外,在朗讀出現多個角色的童話書時,也能發揮各個人物的個性,進行生動的表演。Google 轉型語音 AI:Gemini 2.5 文字轉語音模型… Google DeepMind 研究團隊對此評價道:「AI 語音向人類領域邁出了巨大的一步。」Google 轉型語音 AI:Gemini 2.5 文字轉語音模型…

2. 「被打斷也不會驚慌失措」

回想一下我們和朋友聊天的時候。是不是常在對方話還沒說完就點頭附和,或者有了疑問就中途插話?以前的 AI 必須默默等到自己把話說完為止。但現在 Gemini 具備了 多輪對話 (Multi-turn conversation,多次往返的對話) 的能力,即使中途被打斷或插話,也能自然地做出反應並繼續對話。Google 的 Gemini 音訊升級比聽起來更重要:內容是… 對話流程如行雲流水般連貫,讓人真的有一種與人相對而坐、自在聊天的感覺。為強大語音互動而改進的 Gemini 音訊模型

3. 「只要動動口,就能自動執行 App」

一項被稱為 函式呼叫 (Function Calling) 的功能得到了強化。簡單來說,就是 AI 聽取我的聲音並實際執行「行動」的能力。比喻來說,這就像跟聰明的秘書說「明天早上 7 點叫醒我」,秘書就會直接幫你設定好鬧鐘一樣。現在即使是在比以前更複雜且混雜噪音的環境中,AI 也能精確聽懂使用者的指令並執行手機功能。Google 的 Gemini 音訊升級比聽起來更重要:內容是…

現況:哪裡可以使用?

這些驚人的技術已經開始應用於我們周遭的服務中。

在性能方面也有令人驚訝的數據。Gemini 2.5 原生音訊模型在綜合評估語音助手能力的「ComplexFuncBenchAudio」基準測試中,獲得了 71.5% 的高分。為強大語音互動而改進的 Gemini 音訊模型 這意味著 AI 已經準備好超越簡單的對話,去執行現實生活中的複雜指令。

未來展望

Google 的這次舉動不僅僅是打造一個「會說話的 AI」,更將在我們生活的各個領域掀起巨大的浪潮。

當然,AI 尚未達到完美的境界。雖然 71.5% 的分數很出色,但換句話說,仍存在約 28.5% 犯錯的可能性。為強大語音互動而改進的 Gemini 音訊模型 但從技術發展的速度來看,或許不久之後,在與 AI 結束對話後,我們會隨口說出一句:「你真的像真人一樣溫暖呢!」這樣的讚美。

AI 的觀點

這次更新的重要意義在於,AI 突破了「文字」的狹隘框架,開始直接感受「聲音」這個更寬廣且立體的世界。期待這項消除語言障礙、縮短技術與人之間心理距離的變化,能讓我們的生活變成一個更具連結且溫暖的空間。

參考資料

  1. Improved Gemini audio models for powerful voice interactions
  2. Google’s Gemini Audio Upgrade Is Bigger Than It Sounds: What …
  3. Improved Gemini audio models for powerful voice interactions
  4. Improved Gemini audio models for powerful voice interactions
  5. Enhanced Gemini Audio Models Drive More Powerful Voice …
  6. Improved Gemini audio models for powerful voice interactions
  7. Enhanced Gemini Models Boost Powerful Voice Interactions
  8. Gemini Audio Models Upgrade Voice Interactions - theoutpost.ai
  9. Enhanced Gemini voice models boost interactive audio capabilities
  10. Google Transforms Voice AI: Gemini 2.5 Text-to-Speech Models …
  11. Build More Powerful Voice Agents with the Gemini Live API

FACT-CHECK SUMMARY

  • Claims checked: 15
  • Claims verified: 15
  • Verdict: PASS
測試你的理解
Q1. 這次更新為 Google 翻譯 App 增加了什麼核心功能?
  • 將文字轉換為圖片
  • 透過耳機進行即時語音翻譯
  • 離線字典功能
Google 在翻譯 App 中導入了使用耳機的即時語音對語音翻譯功能。
Q2. Gemini 2.5 原生音訊模型在評估執行複雜任務能力的基準測試中獲得了多少分?
  • 50.5%
  • 61.5%
  • 71.5%
升級後的模型在 ComplexFuncBenchAudio 基準測試中獲得了 71.5% 的分數。
Q3. 下列何者不是 Gemini 2.5 文字轉語音 (TTS) 模型的新特點?
  • 實現多種角色的對話
  • 可調整說話速度
  • 完全感受不到情感的機械語調
這次更新讓 AI 語音更像真人,能夠實現自然的語速調節和多樣化的對話。