Google DeepMind 發布了 'Gemini 2.5 Computer Use' 模型,該模型能像人類一樣瀏覽網站與 App 畫面,並直接進行點擊、輸入與捲動等操作。
AI 會直接操控我的電腦?Google 全新 ‘Gemini 2.5 Computer Use’ 模型登場!
想像一下。你打算下個月和朋友們去濟州島旅遊。通常情況下,你需要頻繁進出三、四個航空公司網站比較價格、預訂租車,甚至連住宿資訊都要一一輸入後結帳。填寫複雜的輸入框和點擊按鈕的過程相當繁瑣。
但現在,你只需要對 AI 說:「幫我預訂行程最便宜的機票和租車。」AI 就會替你打開瀏覽器,「看」螢幕、「點擊」合適的按鈕、「輸入」日期,並處理所有過程。這就像有一位老練的秘書在你身邊替你操控滑鼠一樣。
Google DeepMind 公開了能讓這種魔法般的場景成真的全新人工智慧模型:「Gemini 2.5 Computer Use」 來源:Introducing the Gemini 2.5 Computer Use model - The Keyword。
為什麼這很重要?
過去我們遇到的 AI,例如 ChatGPT 或既有的 Gemini,主要是擅長「說話」的秘書。它們能回答疑問、摘要長篇文章。但實際上我們在電腦上進行的實務作業——發送郵件、在 Excel 輸入數據,或在複雜的網站中尋找資訊——仍然需要我們親自動手。
Gemini 2.5 Computer Use 模型的登場,意味著 AI 已從單純的「說話存在」進化為「行動存在」 來源:Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …。在專業術語中,這也被稱為「代理式 AI (Agentic AI,能自主判斷並行動的 AI)」時代的正式開啟 來源:Introducing-the-Gemini-20-our-new-AI-model-for-the-agentic-era.jpg。
此模型將改變我們數位生活的三個重要原因:
- 完全模仿人類的方式:即使沒有額外的複雜連接通道 API(軟體間的對話窗口),它也能像人類看著螢幕操作一樣,自由自在地操控所有網站與 App 來源:Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …。
- 從重複作業中解放:每天早上登入多個網站確認數據並製作報告的枯燥工作,可以完全交給 AI。
- 真正的「完結型秘書」誕生:超越單純尋找資訊,它還能幫你完成預訂、購買及數據整理,成為可靠的合作夥伴 來源:Google News - News aboutGemini- Overview。
輕鬆理解:AI 的「眼睛」與「雙手」
這個模型是如何像人類一樣操作電腦的呢?比喻來說,可以理解為 AI 擁有了非常聰明的「眼睛」與精巧的「雙手」。
1. 視覺理解:AI 的「眼睛」
此模型是以 Gemini 2.5 Pro 模型強大的視覺理解能力為基礎開發的 來源:Introducing The Gemini 2.5 Computer Use Model。
| 試想一下當你站在一台從未見過的複雜 Kiosk(自助服務機)前。即使不讀說明書,你也能透過螢幕上的圖案與文字判斷出「啊,按這裡就能點餐了」。Gemini 2.5 Computer Use 模型也是如此。它能即時分析螢幕截圖 (Screenshot),準確掌握按鈕在哪裡、該在哪裡輸入文字 [來源:Gemini2.5’ComputerUse’: Can ThisModelAutomate Your… | Fello AI](https://felloai.com/gemini-2-5-computer-use/)。 |
2. 推理與行動:AI 的「雙手」
理解螢幕後,接著就是採取行動。此模型會根據分析的螢幕內容,逐步執行點擊 (Click)、輸入 (Typing)、捲動 (Scroll) 等動作 來源:Google LaunchesGemini-2-5-Computer-Use-Model-for-Browser…。
| 例如遇到登入畫面時,此模型會邏輯性地規劃並執行人類的行動順序,像是「先點擊帳號欄位,輸入我的帳號,再點擊密碼欄位…」 來源:Google LaunchesGemini-2-5-Computer-Use-Model-for-Browser…。專家 Eduardo López 評價道,該模型能「像人類一樣與介面互動,並即時適應各種狀況」 [來源:IntroducingtheGemini2.5ComputerUsemodel | Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N)。 |
簡單來說,如果之前的 AI 是在旁邊指路的「地圖 App」,那麼 Gemini 2.5 Computer Use 就像是親自握住方向盤,將車安全開往目的地的「司機」。
目前現況:進展到哪裡了?
目前該模型正處於面向開發者的公開預覽 (Public Preview) 階段 來源:Introducing the Gemini 2.5 Computer Use model - The Keyword。也就是說,一般使用者目前還無法一鍵使用,但 Google 已向全球開發者敞開大門,讓他們能利用這項技術開發創新的 App 或服務 來源:Gemini 2.5 Computer Use Model Officially Introduced: Now Available as …。
其主要特點整理如下:
- 壓倒性的效能:在衡量網頁與行動裝置控制效能的基準測試 (Benchmark) 中,取得了優於競爭對手的成績 來源:Introducing the Gemini 2.5 Computer Use model。
- 流暢的速度:反應速度比現有模型更快。也就是說,延遲 (Latency) 降低了,實際作業流程變得更加自然 來源:Introducing the Gemini 2.5 Computer Use model。
- 驚人的通用性:設計初衷是不僅能用於特定網站,還能用於我們日常使用的所有網站與行動 App 來源:FinancialContent - Gemini 2.5 Computer Use Model: A Paradigm Shift in …。
當然,目前仍有待克服的挑戰。根據 Google 公開的模型卡 (Model Card),目前仍存在一些技術局限,且必須遵守安全使用指南。Google 表示將持續改進這些問題 來源:PDFGemini Computer Use External Model Card (October 7, 2025) - updated2。
未來會如何?
此模型的登場將完全改變我們操作數位裝置的邏輯。
在不久的將來,我們或許不再需要為了學習複雜軟體的使用方法而苦惱。即使完全不會用 Photoshop,只要說一聲「幫我刪除這張照片的背景,讓天空更藍一點」,AI 就會自動操作 Photoshop 的工具,產出完美的結果。
此外,企業可以從客戶諮詢到行政處理,利用此模型實現劃時代的自動化。例如收到客戶「幫我變更住址」的請求時,AI 會自動登入公司系統並修正資訊 來源:Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI …。
現在 AI 不僅能回答我們的問題,更已準備好成為我們的雙手與雙腳,替我們在複雜的數位世界中開疆闢土。不再是我們一個一個操作電腦,而是只需告訴 AI 目的地,由 AI 奮力完成過程的時代,已經近在咫尺。
MindTickleBytes AI 記者的觀點
Gemini 2.5 Computer Use 的誕生,象徵著 AI 不僅具備卓越的「智慧」,更擁有了實質的「手腳」。現在對我們來說,重要的不再是「如何操作」,而是「要讓 AI 做什麼」。比起工具的熟練度,定義「創意目的」的能力將變得更有價值。在這個時代,你最想交給你的 AI 秘書處理的第一件事是什麼呢?
參考資料
- Introducing the Gemini 2.5 Computer Use model - The Keyword
-
[Computer Use Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use) - Introducing The Gemini 2.5 Computer Use Model
- Introducing the Gemini 2.5 Computer Use model
- 2025 Complete Guide: Gemini 2.5 Computer Use Model - Revolutionary …
- PDFGemini Computer Use External Model Card (October 7, 2025) - updated2
-
[IntroducingtheGemini2.5ComputerUsemodel Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N) - Google News - News aboutGemini- Overview
-
[Gemini2.5’ComputerUse’: Can ThisModelAutomate Your… Fello AI](https://felloai.com/gemini-2-5-computer-use/) - Google LaunchesGemini2.5ComputerUseModelfor Browser…
- How to Build AI Agents withGemini2.5ComputerUse(2025)
- Google’s new Gemini AI 2.5 Computer Use model can browse the web and …
- FinancialContent - Gemini 2.5 Computer Use Model: A Paradigm Shift in …
- Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …
- Gemini 2.5 Computer Use Model Officially Introduced: Now Available as …
- Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI …
- 能像人類一樣看懂螢幕並直接進行點擊與輸入。
- 僅以文字回答問題。
- 僅透過聲音控制電腦。
- Gemini 1.0 Pro
- Gemini 2.5 Pro
- Gemma 2
- 仍處於構想階段。
- 僅在 Google 內部使用。
- 已作為面向開發者的公開預覽版發布。