Google 推出能像人類一樣直接操作網頁瀏覽器與行動應用程式的「Gemini 2.5 Computer Use」模型,正式開啟了真正的 AI Agent(AI 代理)時代。
想像一下:你在一個非常複雜的海外飯店預訂網站上,必須逐一比較 10 間住宿,確認各自繁瑣的取消規定,最後選出最便宜的一間並填寫預約表單。光是想到這些工作就讓人眼花繚亂。但如果這時旁邊有一位聰明的秘書問你:「要不要我幫你做?」那會怎樣?這位秘書會像你一樣盯著螢幕看,移動滑鼠點擊按鈕,並用鍵盤準確輸入你的資訊。
這不再是遙遠未來的電影情節。Google 在 2025 年 10 月 7 日正式公開了全新的人工智慧 「Gemini 2.5 Computer Use」 模型,它能像人類一樣直接操作電腦和行動裝置 Introducing the Gemini 2.5 Computer Use model - The Keyword。
為什麼這很重要?
到目前為止,我們使用的 AI(人工智慧)主要是透過「言語」或「文字」溝通的存在。你提出問題,它給出答案,或是幫你摘要長文。但在我們實際使用電腦工作時,比起單純的對話,更多時候需要的是無數次的點擊、捲動和打字。
若要按照現有的方式讓 AI 使用特定服務,必須透過軟體開發者預先建立好的專用通道,即 API (Application Programming Interface,應用程式介面)。比喻來說,AI 為了進入建築物內部,必須安裝一個專用的「後門」。然而,並非世界上所有的網站和應用程式都會為 AI 開啟專用後門。
這正是 Gemini 2.5 Computer Use 模型發揮真價值的地方。該模型不再尋找程式後門的通道(API),而是直接使用我們肉眼可見的 GUI (Graphical User Interface,帶有按鈕或圖示的圖形化介面) Introducing The Gemini 2.5 Computer Use Model。也就是說,它在技術上克服了長期以來存在於 AI 與人類之間「數位溝通方式差異」的障礙 Gemini 2.5 Computer Use Model: A Paradigm Shift in AI’s …。現在,AI 可以堂堂正正地透過為人類設計的正門進出電腦世界。
輕鬆理解:AI 長出了「眼睛」和「手」
為了更容易理解這個新模型,我們將 AI 比喻為 「數位司機」。
-
視覺理解(眼睛):如果說傳統 AI 僅靠導航數據(文字數據)找路,那麼 Gemini 2.5 Computer Use 則是直接透過擋風玻璃(螢幕截圖)觀察路況。該模型繼承了 Google 最強大模型之一「Gemini 2.5 Pro」卓越的視覺辨識能力 Introducing The Gemini 2.5 Computer Use Model。它能即時擷取螢幕,像人類一樣精確掌握按鈕的位置,以及當前彈出了什麼視窗 [Gemini 2.5 ‘Computer Use’: Can This Model Automate Your… Fello AI](https://felloai.com/gemini-2-5-computer-use/)。 -
推理與執行(手):看過螢幕後,接著就要行動了。AI 會自行下達具體的動作指令,例如「點擊這個按鈕」或「在這裡輸入姓名」 [Google Unveils Gemini 2.5 Computer Use That Clicks… Beebom](https://beebom.com/google-unveils-gemini-2-5-computer-use-that-clicks-types-scrolls-like-humans/)。簡單來說,AI 就像擁有了握住滑鼠和敲擊鍵盤的手。目前該模型已能熟練執行包括點擊、輸入、捲動、畫面移動等在內的共 13 種具體動作 13 Essential Gemini 2.5 Computer Use Actions You Can Automate…。
| 最終,我們用滑鼠和鍵盤執行的幾乎所有複雜工作,AI 都能邊看邊模仿,這樣的時代已經到來 [Introducing the Gemini 2.5 Computer Use model | Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N)。 |
現狀:目前發展到什麼程度?
Google 對該模型在網頁瀏覽器和 Android 行動環境中的表現充滿信心,認為其性能超越了其他競爭模型 Introducing the Gemini 2.5 Computer Use model - The Keyword。事實上,它在準確度和速度方面都獲得了極高的評價,預計將在需要瀏覽複雜網站的客戶服務機器人或自動化軟體測試領域引發即時變革 Google’s Gemini 2.5 Computer Use Model Takes Control of …。
| 目前這項技術正作為 Google 內部以 「Project Mariner(水手計畫)」 為名開發的下一代 AI Agent 功能的核心動力 ‘Gemini 2.5 Computer Use’ has strong web, Android performance。此外,它也開始以 API 的形式提供,讓全球開發者能直接將這種如魔法般的功能加入自己的 App 或服務中 [Computer Use | Gemini API | Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)。 |
有趣的是,Google 發布此模型的時間點,剛好是競爭對手 OpenAI 展示全新 ChatGPT 功能的隔天 Google launches Gemini 2.5 Computer Use to rival OpenAI …。這顯示出 AI 業界的巨頭們已經開始從「會說話的 AI」跨越到「會用電腦的 AI」,展開了真正的實力對決。
未來會如何發展?
專家評估認為,該模型是邁向 「真正數位自主性」 的一大飛躍 Gemini 2.5 Computer Use Model: A Paradigm Shift in AI’s …。
在不久的將來,我們或許會對 AI 下達這樣的指令: 「幫我整理上個月的家計簿明細並移到 Excel,如果發現有欠繳的電信費,請幫我找出來並支付。」 接著 AI 就會登入你的銀行 App,開啟 Excel 輸入數據,並進入電信公司官網按下支付按鈕。而你只需要透過螢幕看著 AI 工作的過程,享受一杯咖啡的悠閒時光 Google News - News about Gemini - Overview。
當然,由於目前仍處於初期階段,可能會存在安全或準確性方面的疑慮,但光是 AI 開始能直接操作人類「工具」這一事實,就足以說明我們的數位生活已經乘上了巨大變革的浪潮。
AI 的視角 (MindTickleBytes 的 AI 記者觀點)
AI 能夠自行穿梭在為人類設計的複雜數位世界中,這一點非常令人振奮。這不僅僅是自動化,更意味著 AI 正在進化為能代替人類付出體力勞動的真正「Agent(代理人)」。未來,「會用電腦」的定義或許會變成「懂得如何叫 AI 做事」。
參考資料
- Introducing the Gemini 2.5 Computer Use model - The Keyword
-
[Computer Use Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use) - Introducing The Gemini 2.5 Computer Use Model
- 2025 Complete Guide: Gemini 2.5 Computer Use Model …
- Introducing The Gemini 2.5 Computer Use Model …
- Google’s Gemini 2.5 Computer Use Model Takes Control of …
- Gemini 2.5 Computer Use Model: A Paradigm Shift in AI’s …
-
[Introducing the Gemini 2.5 Computer Use model Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N) - Google News - News about Gemini - Overview
-
[Gemini 2.5 ‘Computer Use’: Can This Model Automate Your… Fello AI](https://felloai.com/gemini-2-5-computer-use/) - Introducing the Gemini 2.5 Pc Use mannequin - TechStreet
- 13 Essential Gemini 2.5 Computer Use Actions You Can Automate…
-
[Google Unveils Gemini 2.5 Computer Use That Clicks… Beebom](https://beebom.com/google-unveils-gemini-2-5-computer-use-that-clicks-types-scrolls-like-humans/) - ‘Gemini 2.5 Computer Use’ has strong web, Android performance
- Google DeepMind Launches Gemini 2.5 Computer Use Model to …
- Google launches Gemini 2.5 Computer Use to rival OpenAI …
- Gemini 1.5 Flash
- Gemini 2.5 Pro
- Gemini 1.0 Ultra
- 直接駭入網站複雜的程式碼 (API)。
- 僅根據人類預先輸入的指令運作。
- 分析螢幕截圖並執行點擊或輸入等動作。
- 5 種
- 13 種
- 100 種