AI 會直接操控我的電腦?Google 全新 'Gemini 2.5 Computer Use' 模型登場!

形象化展示 AI 在電腦螢幕前操控滑鼠游標,像人類一樣進行作業的圖像
AI Summary

Google DeepMind 發布了 'Gemini 2.5 Computer Use' 模型,該模型能像人類一樣瀏覽網站與 App 畫面,並直接進行點擊、輸入與捲動等操作。

AI 會直接操控我的電腦?Google 全新 ‘Gemini 2.5 Computer Use’ 模型登場!

想像一下。你打算下個月和朋友們去濟州島旅遊。通常情況下,你需要頻繁進出三、四個航空公司網站比較價格、預訂租車,甚至連住宿資訊都要一一輸入後結帳。填寫複雜的輸入框和點擊按鈕的過程相當繁瑣。

但現在,你只需要對 AI 說:「幫我預訂行程最便宜的機票和租車。」AI 就會替你打開瀏覽器,「看」螢幕、「點擊」合適的按鈕、「輸入」日期,並處理所有過程。這就像有一位老練的秘書在你身邊替你操控滑鼠一樣。

Google DeepMind 公開了能讓這種魔法般的場景成真的全新人工智慧模型:「Gemini 2.5 Computer Use」 來源:Introducing the Gemini 2.5 Computer Use model - The Keyword

為什麼這很重要?

過去我們遇到的 AI,例如 ChatGPT 或既有的 Gemini,主要是擅長「說話」的秘書。它們能回答疑問、摘要長篇文章。但實際上我們在電腦上進行的實務作業——發送郵件、在 Excel 輸入數據,或在複雜的網站中尋找資訊——仍然需要我們親自動手。

Gemini 2.5 Computer Use 模型的登場,意味著 AI 已從單純的「說話存在」進化為「行動存在」 來源:Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …。在專業術語中,這也被稱為「代理式 AI (Agentic AI,能自主判斷並行動的 AI)」時代的正式開啟 來源:Introducing-the-Gemini-20-our-new-AI-model-for-the-agentic-era.jpg

此模型將改變我們數位生活的三個重要原因:

  1. 完全模仿人類的方式:即使沒有額外的複雜連接通道 API(軟體間的對話窗口),它也能像人類看著螢幕操作一樣,自由自在地操控所有網站與 App 來源:Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …
  2. 從重複作業中解放:每天早上登入多個網站確認數據並製作報告的枯燥工作,可以完全交給 AI。
  3. 真正的「完結型秘書」誕生:超越單純尋找資訊,它還能幫你完成預訂、購買及數據整理,成為可靠的合作夥伴 來源:Google News - News aboutGemini- Overview

輕鬆理解:AI 的「眼睛」與「雙手」

這個模型是如何像人類一樣操作電腦的呢?比喻來說,可以理解為 AI 擁有了非常聰明的「眼睛」與精巧的「雙手」。

1. 視覺理解:AI 的「眼睛」

此模型是以 Gemini 2.5 Pro 模型強大的視覺理解能力為基礎開發的 來源:Introducing The Gemini 2.5 Computer Use Model

試想一下當你站在一台從未見過的複雜 Kiosk(自助服務機)前。即使不讀說明書,你也能透過螢幕上的圖案與文字判斷出「啊,按這裡就能點餐了」。Gemini 2.5 Computer Use 模型也是如此。它能即時分析螢幕截圖 (Screenshot),準確掌握按鈕在哪裡、該在哪裡輸入文字 [來源:Gemini2.5’ComputerUse’: Can ThisModelAutomate Your… Fello AI](https://felloai.com/gemini-2-5-computer-use/)。

2. 推理與行動:AI 的「雙手」

理解螢幕後,接著就是採取行動。此模型會根據分析的螢幕內容,逐步執行點擊 (Click)、輸入 (Typing)、捲動 (Scroll) 等動作 來源:Google LaunchesGemini-2-5-Computer-Use-Model-for-Browser…

例如遇到登入畫面時,此模型會邏輯性地規劃並執行人類的行動順序,像是「先點擊帳號欄位,輸入我的帳號,再點擊密碼欄位…」 來源:Google LaunchesGemini-2-5-Computer-Use-Model-for-Browser…。專家 Eduardo López 評價道,該模型能「像人類一樣與介面互動,並即時適應各種狀況」 [來源:IntroducingtheGemini2.5ComputerUsemodel Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N)。

簡單來說,如果之前的 AI 是在旁邊指路的「地圖 App」,那麼 Gemini 2.5 Computer Use 就像是親自握住方向盤,將車安全開往目的地的「司機」。

目前現況:進展到哪裡了?

目前該模型正處於面向開發者的公開預覽 (Public Preview) 階段 來源:Introducing the Gemini 2.5 Computer Use model - The Keyword。也就是說,一般使用者目前還無法一鍵使用,但 Google 已向全球開發者敞開大門,讓他們能利用這項技術開發創新的 App 或服務 來源:Gemini 2.5 Computer Use Model Officially Introduced: Now Available as …

其主要特點整理如下:

當然,目前仍有待克服的挑戰。根據 Google 公開的模型卡 (Model Card),目前仍存在一些技術局限,且必須遵守安全使用指南。Google 表示將持續改進這些問題 來源:PDFGemini Computer Use External Model Card (October 7, 2025) - updated2

未來會如何?

此模型的登場將完全改變我們操作數位裝置的邏輯。

在不久的將來,我們或許不再需要為了學習複雜軟體的使用方法而苦惱。即使完全不會用 Photoshop,只要說一聲「幫我刪除這張照片的背景,讓天空更藍一點」,AI 就會自動操作 Photoshop 的工具,產出完美的結果。

此外,企業可以從客戶諮詢到行政處理,利用此模型實現劃時代的自動化。例如收到客戶「幫我變更住址」的請求時,AI 會自動登入公司系統並修正資訊 來源:Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI …

現在 AI 不僅能回答我們的問題,更已準備好成為我們的雙手與雙腳,替我們在複雜的數位世界中開疆闢土。不再是我們一個一個操作電腦,而是只需告訴 AI 目的地,由 AI 奮力完成過程的時代,已經近在咫尺。


MindTickleBytes AI 記者的觀點

Gemini 2.5 Computer Use 的誕生,象徵著 AI 不僅具備卓越的「智慧」,更擁有了實質的「手腳」。現在對我們來說,重要的不再是「如何操作」,而是「要讓 AI 做什麼」。比起工具的熟練度,定義「創意目的」的能力將變得更有價值。在這個時代,你最想交給你的 AI 秘書處理的第一件事是什麼呢?


參考資料

  1. Introducing the Gemini 2.5 Computer Use model - The Keyword
  2. [Computer Use Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)
  3. Introducing The Gemini 2.5 Computer Use Model
  4. Introducing the Gemini 2.5 Computer Use model
  5. 2025 Complete Guide: Gemini 2.5 Computer Use Model - Revolutionary …
  6. PDFGemini Computer Use External Model Card (October 7, 2025) - updated2
  7. [IntroducingtheGemini2.5ComputerUsemodel Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N)
  8. Google News - News aboutGemini- Overview
  9. [Gemini2.5’ComputerUse’: Can ThisModelAutomate Your… Fello AI](https://felloai.com/gemini-2-5-computer-use/)
  10. Google LaunchesGemini2.5ComputerUseModelfor Browser…
  11. How to Build AI Agents withGemini2.5ComputerUse(2025)
  12. Google’s new Gemini AI 2.5 Computer Use model can browse the web and …
  13. FinancialContent - Gemini 2.5 Computer Use Model: A Paradigm Shift in …
  14. Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …
  15. Gemini 2.5 Computer Use Model Officially Introduced: Now Available as …
  16. Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI …
測試你的理解
Q1. Gemini 2.5 Computer Use 模型最大的特點是什麼?
  • 能像人類一樣看懂螢幕並直接進行點擊與輸入。
  • 僅以文字回答問題。
  • 僅透過聲音控制電腦。
此模型模仿人類使用介面的方式,直接執行點擊、輸入、捲動等操作。
Q2. 此模型是以哪款模型的視覺理解與推理能力為基礎開發的?
  • Gemini 1.0 Pro
  • Gemini 2.5 Pro
  • Gemma 2
Gemini 2.5 Computer Use 是基於 Gemini 2.5 Pro 強大的視覺理解與推理能力所建構的專門模型。
Q3. 目前該模型的可用狀態為何?
  • 仍處於構想階段。
  • 僅在 Google 內部使用。
  • 已作為面向開發者的公開預覽版發布。
目前處於公開預覽 (Public Preview) 狀態,開發者可透過 Gemini API、Google AI Studio 及 Vertex AI 進行測試。