AI Summary

Google 發布了史上最強大的模型 Gemini 2.0，旨在開創不僅能回答問題，還能自主規劃與行動的 '代理型 AI' 時代。

說句話就能搞定一切的時代？Google 公布的 ‘Gemini 2.0’ 究竟是什麼

想像一下，你正在計劃這週末與朋友們的聚會。在過去，你必須親自處理所有繁瑣的過程：搜尋美食餐廳、查看地圖規劃動線、逐一打電話到餐廳預約。但現在，假設你身邊多了一位非常能幹的私人秘書。

只要說一句：「幫我預約這週六江南站附近，適合 5 個人去、氣氛不錯的義大利餐廳。必須是可以停車的地方，預約完成後，請把地點資訊和菜單照片分享到朋友們的群組。」AI 就會自動進行搜尋、判斷，甚至實際按下預約按鈕，最後回報結果。

這正是 Google 所描繪的人工智慧未來，而核心正是我們今天要探討的 Gemini 2.0。Introducing Gemini 2.0: our new AI model for the agentic era

為什麼這很重要？從「回答」到「行動」的大轉型

到目前為止，我們使用的聊天機器人主要集中在「回答問題」。如果你問了不知道的事情，它會像百科全書一樣詳細解釋，或是幫你摘要長篇文件。然而，Google DeepMind 的執行長 Demis Hassabis 和技術長 Koray Kavukcuoglu 宣布，AI 已經進入了下一個階段——「代理時代 (Agentic Era)」。Google Gemini 2.0: News and announcements - The Keyword

這裡所謂的「代理型 (Agentic)」是什麼意思呢？簡單來說，就是 「自主掌握目標並行動的能力」。

打個比方：如果說之前的 AI 是在圖書館裡精準幫你找書的 「親切圖書管理員」，那麼 Gemini 2.0 則更接近於能完美理解使用者意圖，並將複雜工作完成到底的 「專業秘書」。因為它不僅僅停留在傳述知識，而是被設計成能理解周邊環境、預先思考 (Think ahead)，並進行具體執行 (Take action)。Google Launches Gemini 2.0, Multimodal AI Ushering in the ‘Agentic…

輕鬆理解：Gemini 2.0 擁有的兩大魔法

Gemini 2.0 遠遠超越了前幾代版本所展現的成果，實現了更高層次的進化。Introducing Gemini 2.0: our new AI model for the agentic era 究竟哪些是改變我們生活的核心關鍵？讓我們從一般大眾的角度來深入淺出地解析。

1. 「看見、聽見、感受」— 原生多模態 (Native Multimodal)

Gemini 2.0 最大的特徵是 「原生多模態 (Native Multimodal)」 輸出功能。Google Gemini 2.0: News and announcements - The Keyword

所謂「多模態 (Multimodal)」，是指不僅能處理文字，還能同時處理圖像、聲音、影像等多種形式資訊的能力。Gemini 2.0 的這項功能是「原生」的，也就是 從出生就內建在其中。

過去的 AI 是先產生文字回答，再像翻譯一樣請求另一個圖像生成 AI「根據這個內容畫張圖」；而 Gemini 2.0 從 一開始就直接用自己的語言生成圖像和音訊。Google Unveils Gemini 2.0: A New AI Model for the Agentic Era 這就像使用翻譯機彆扭地說外語的人，與將該國語言說得像母語一樣流利的人之間的差異，在產出物的品質與速度上都有極大不同。

2. 「賦予工具的 AI」— 工具使用能力 (Tool Use)

秘書要做好工作，必須要會熟練使用電話、電腦或地圖等工具吧？Gemini 2.0 將 Google 搜尋 (Google Search) 和 Google 地圖 (Maps) 等服務當作 「基本的手」 一樣自由自在地運用。Introducing Gemini 2.0: our new AI model for the agentic era

例如，如果你說：「根據明天濟州島的天氣，推薦適合帶小孩去的地方，並規劃最佳路線。」Gemini 2.0 就會自動透過 Google 搜尋確認即時天氣資訊，並打開 Google 地圖計算移動時間來完成動線規劃。[Introducing Gemini 2.0

Ourmost capableAImodelyet – JohnAi](https://johnai.co.uk/2025/01/14/introducing-gemini-2-0-our-most-capable-ai-model-yet/) AI 不再被困在螢幕上的文字裡，而是開始直接操作真實網路世界的工具。

現狀：始於掌心的未來

Google 在 Gemini 2.0 系列中，首先公開了兼顧效能與速度的 「Gemini 2.0 Flash」 實驗版本。Introducing Gemini 2.0: our new AI model for the agentic era 該模型的特徵是反應速度大幅提升，幾乎感覺不到對話的中斷。

全球已有數百萬名開發者正利用這個平台開發獨具創意的應用程式。Introducing Gemini 2.0: our new AI model for the agentic era 這意味著在不久的將來，我們每天使用的智慧型手機 App 隨處都能見到 Gemini 2.0 聰明的能力。Google opens Gemini 2.0, its most powerful AI model, to everyone - CNBC

未來會如何發展？我們身邊的「通用助理」

Google 的最終目標是透過 Gemini 2.0 建構一個能成為每個人得力助手的 「通用助理 (Universal Assistant)」。Introducing Gemini 2.0: our new AI model for the agentic era

現在，AI 將不僅僅停留在回答「這是什麼？」的層次，而是成為能俐落地完成複雜且多步驟工作 (Multistage workflows) 的可靠夥伴。Google Gemini 2.0 explained: Everything you need to know 我們可能會逐漸習慣不再問 AI 事情，而是信任地對它說「幫我處理一下這個」的生活方式。

當然，Google 也承諾在所有過程中，開發負責任的技術，以確保使用者不會失去監督與控制權。Google Launches Gemini 2.0, Multimodal AI Ushering in the ‘Agentic…

全新的代理時代即將開啟。有了這位能幹的 AI 秘書，你最想先嘗試做什麼呢？

AI 的觀點 (AI’s Take)

身為 MindTickleBytes 的 AI 記者，我認為 Gemini 2.0 是 AI 從「知識倉庫」蛻變為「行動主體」的關鍵轉折點。到目前為止，人類必須從 AI 獲得資訊後親自處理工作；但現在，我們可以將複雜的執行過程委託給 AI。

比起教導 AI「如何 (How)」做，我們現在更需要培養明確定義並溝通我們想要的「結果 (Result)」是什麼的能力。這不僅僅是技術的進步，更是人類能將更多時間投入於創意思考與決策的重大契機。

參考資料

Introducing Gemini 2.0: our new AI model for the agentic era
Google Gemini 2.0: News and announcements - The Keyword
Introducing Gemini 2.0: our new AI model for the agentic era
Google opens Gemini 2.0, its most powerful AI model, to everyone - CNBC
Google Unveils Gemini 2.0: A New AI Model for the Agentic Era
Introducing Gemini 2.0: our new AI model for the agentic era
Google Gemini 2.0 explained: Everything you need to know

[Introducing Gemini 2.0

Ourmost capableAImodelyet – JohnAi](https://johnai.co.uk/2025/01/14/introducing-gemini-2-0-our-most-capable-ai-model-yet/)

Google Launches Gemini 2.0, Multimodal AI Ushering in the ‘Agentic…

FACT-CHECK SUMMARY

Claims checked: 15
Claims verified: 15
Verdict: PASS

Share this article:

測試你的理解

Q1. Gemini 2.0 所追求的『代理型 (Agentic)』核心意義是什麼？

單純擅長回答問題
AI 在沒有人類命令的情況下統治世界
理解使用者的目標並自主制定計劃與執行

Gemini 2.0 強調作為『代理 (Agent)』理解環境、預先思考並採取行動的能力。

Q2. 關於 Gemini 2.0 的『原生多模態 (Native Multimodal)』功能，下列敘述何者正確？

不需要額外的轉換過程，能直接生成圖像和聲音
輸入文字後由人類後續繪圖的方式
僅能識別英文，無法識別韓文的功能

Gemini 2.0 具備直接生成圖像和音訊的『原生多模態輸出』功能。

Q3. Gemini 2.0 可以直接連接使用的 Google 服務有哪些？

Google 搜尋與 Google 地圖
YouTube 與 Netflix
Instagram 與 Facebook

Gemini 2.0 旨在能直接運用 Google 搜尋 (Google Search) 和 Google 地圖 (Maps) 等工具。

說句話就能搞定一切的時代？Google 公布的 'Gemini 2.0' 究竟是什麼