與 AI 聊天，現在真的會像真人一樣嗎？Google Gemini 2.5 驚人的音訊演化

AI Summary

Google Gemini 2.5 透過從一開始就理解並生成聲音的「原生音訊」功能，實現了如真人般自然的對話與精細的語音生成。

想像一下。 在一個陌生外國城市的熱鬧咖啡廳，你正想點餐，卻發現菜單極其陌生，話到嘴邊卻說不出口，感到非常慌張。這時你拿出智慧型手機開始對話。這不僅僅是翻譯句子並生硬地讀出來。這個 AI 能察覺你聲音中細微的顫抖與急促，並用平穩的聲音安撫你。接著，就像身邊有一位資深翻譯員在耳邊低語般，它以完全符合情境的自然語調與店員交談。

這種電影般的情節，隨著 Google 最新的 AI 模型 Gemini 2.5 的推出，正大步走進我們的日常生活。Google 最近公開了 Gemini 2.5，並宣布在人工智慧聽取與說話的方式上取得了巨大的技術飛躍 Advanced audio dialog and generation with Gemini 2.5。

為什麼這很重要？

傳統的 AI 語音服務其實就像是「翻譯員的接力賽」。當我們說話時，1 號選手將其記錄為文字（STT，語音轉文字），2 號選手分析該文字並建立答案，接著 3 號選手再將答案讀成聲音（TTS，文字轉語音）。

這種「接力賽」方式有一個致命的缺點。那就是每當選手之間傳遞接力棒時，資訊都會一點一滴地消失。聲音中蘊含的悲傷或喜悅等情感、想要強調的部分的細微差別，甚至是周遭充滿活力的噪音等寶貴的「脈絡」，在轉換成文字的過程中全都蒸發了。

但 Gemini 2.5 不同。Google 提出了一個大膽的願景，即該模型在未來將創造出 「與 AI 互動就像與其他人對話一樣自然」 的世界 Google Launches Gemini 2.5 with Audio Upgrades - C# Corner。現在，AI 開始直接理解並生成聲音，不再需要中間步驟。

輕鬆理解：「原生音訊」的秘密

Gemini 2.5 的核心在於 「原生 (Native) 多模態」 設計 Advanced audio dialog and generation with Gemini 2.5。

1. 真正聽得見聲音的 AI

這裡的 多模態 (Multimodal，同時處理多種形式資訊的能力)，原理就像人類用眼睛看（圖像）、用耳朵聽（音訊）、閱讀文字一樣。Gemini 2.5 從設計階段開始，就具備了直接理解並生成文字、圖像、影片、程式碼以及「音訊」的能力 Advanced audio dialog and generation with Gemini 2.5。

比喻如下：

傳統 AI：看著樂譜一一讀出音符名稱來唱歌的人（從書本學習音樂） Gemini 2.5：直接聽取傳來的旋律，並發揮那種感覺與興致進行即興演奏的音樂家（用身體感受音樂）

2. 如聊天般的即時對話

Google 透過 Gemini 2.5 大幅強化了即時對話能力。這不再只是我們提出問題後，無聊地等待 AI 回答。它能掌握對話的流向與脈絡，甚至能中途打斷對方的說話或自然地隨聲附和，實現了人與人之間如「閒聊」般的互動 Google DeepMind’s Gemini 2.5: AI for more natural audio dialog。

Gemini 2.5 的「音訊家族」

Gemini 2.5 模型系列根據使用目的，由兩個各具優點的模型組成 Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality …。

Gemini 2.5 Pro：可以看作是「百科全書般的教授」。擁有最強大的智能，在複雜的編碼或邏輯推理能力方面表現卓越。在音訊領域也展現出最高水準的深度分析性能。
Gemini 2.5 Flash：可以想成是「動作敏捷的秘書」。就像名字一樣快速且輕巧。最適合用於像即時對話這種即便延遲 0.1 秒都會感到尷尬、需要即時反應的服務。

特別是開發者現在可以透過「Gemini Live API」，輕鬆在自己的應用程式中實現高品質的音訊功能，讓互動就像與真人對話一樣 [Gemini 2.5 Flash with Gemini Live API

Generative AI on Vertex AI …](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)。

現在正改變著我們的日常生活

我們日常生活中最先能感受到的變化就是 Google 翻譯 (Google Translate) 應用程式。多虧了 Gemini 2.5 提升的音訊模型，應用程式內即時翻譯對話的功能變得更加流暢且強大 Improved Gemini audio models for powerful voice interactions。

此外，感興趣的開發者或早期採用者可以在 Google AI Studio 搶先體驗以下功能 Advanced audio dialog and generation with Gemini 2.5：

原生音訊對話 (Native Audio Dialogue)：可透過 Flash 模型測試與 AI 交換話語的速度有多快。
可控語音生成 (TTS)：這是一項精細的功能，能以使用者想要的特定細微差別或情感風格來產生語音。

為了安全與透明 AI 的承諾

驚人的技術伴隨著相應的責任。隨著 AI 能像人類一樣說話，對於可能的濫用（例如：模仿他人聲音的深偽 Deepfake 語音）的擔憂也隨之增加。Google 為了防止這種情況，準備了多層安全裝置 [Gemini 2.5 adds native dialogue and audio generation

Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)。

紅隊演練 (Red Teaming)：這是由專家直接扮演攻擊者，找出 AI 漏洞並進行修補的「模擬駭客」式安全性強化過程 Google DeepMind’s Gemini 2.5: AI for more natural audio dialog。

SynthID：簡單來說就是「數位浮水印」。在 AI 生成的音訊中插入人類耳朵聽不見的固有訊號，以便日後能明確判別該聲音是否由 AI 所製造 [Gemini 2.5 adds native dialogue and audio generation

Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)。

未來展望：以聲音溝通的世界

Google 從 2025 年 7 月左右開始，持續精煉並提升 Gemini 2.5 的音訊功能 Google’s Gemini AI: The Multimodal Supermodel Aiming to Outshine…。現在，已超越單純的文字型秘書，開啟了一個透過聲音完全理解世界並進行溝通的真正「多模態智能」時代。

不久之後，你的智慧型手機可能只需聽你的語調，就會溫暖地主動搭話：「今天聽起來聲音有點沒精神呢？為了轉換心情，要幫你播放平時喜歡的輕快音樂嗎？」對於這個以聲音連結的 AI 未來，你正抱持著什麼樣美好的想像呢？

AI 的視角 (MindTickleBytes AI 記者)

「Gemini 2.5 的音訊演化意味著機器已開始超越人類的『語言』，轉而理解『聲音的脈絡』。這不僅僅是便利，對於視障人士或閱讀困難的人來說，這將成為一種溫暖的技術包容，為他們開啟更廣闊的世界之門。因為聲音是比語言更原始且強大的溝通工具。」

參考資料

Advanced audio dialog and generation with Gemini 2.5
Advanced audio dialog and generation with Gemini 2.5 (Aster Cloud)
Advanced audio dialog and generation with Gemini 2.5 (Onmine)

[Gemini 2.5 Flash with Gemini Live API

Generative AI on Vertex AI …](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality …
Improved Gemini audio models for powerful voice interactions

[Gemini 2.5 adds native dialogue and audio generation

Keryc](https://keryc.com/en/news/gemini-25-adds-native-dialogue-audio-generation-826fc082)

Google Launches Gemini 2.5 with Audio Upgrades - C# Corner
Google’s Gemini AI: The Multimodal Supermodel Aiming to Outshine…
Google DeepMind’s Gemini 2.5: AI for more natural audio dialog

FACT-CHECK SUMMARY

Claims checked: 21
Claims verified: 20
Verdict: PASS

Share this article:

測試你的理解

Q1. Gemini 2.5 處理音訊的「原生 (Native)」方式有什麼特點？

先將文字翻譯成聲音後再理解
從一開始就與文字、圖像一起直接理解並生成聲音
透過縮小音訊檔案大小來處理

Gemini 2.5 從設計之初就是多模態模型，具備同時直接理解並生成文字、圖像、音訊等內容的能力。

Q2. Google 為識別 AI 生成音訊而引入的技術名稱是什麼？

AudioID
GoogleCheck
SynthID

為了安全與透明度，Google 應用了 SynthID 技術，可識別由 AI 生成的音訊。

Q3. 開發者可以在哪裡搶先體驗 Gemini 2.5 的音訊功能？

Google AI Studio
Android Play Store
Chrome Web Store

開發者可以透過 Google AI Studio 的串流 (Stream) 分頁或媒體生成分頁，搶先體驗 Gemini 2.5 的音訊功能。