AI 可以直接操作我的電腦？Gemini 3.5 Flash「電腦使用」功能正式發布

AI Summary

Google 為 Gemini 3.5 Flash 模型新增了「電腦使用」(Computer Use) 功能，賦予 AI 像人類一樣直接操作電腦的能力，進而自動化處理複雜的工作流程。

想像一下：早晨起床後，您對 AI 說：「請幫我整理今天會議所需的資料到相關資料夾中，並將重點撰寫成電子郵件草稿。」若是以前的 AI，頂多只能幫您整理內容，但現在，AI 時代已經來臨——它將能親自移動滑鼠、開啟視窗、搬移檔案，並在郵件視窗中輸入文字。Google 近期發表的 Gemini 3.5 Flash「電腦使用」(Computer Use) 功能，正是這場變革的主角。

為何這項功能至關重要？

過去我們所使用的人工智慧 (AI)，主要停留在「生成文字」或「生成圖像」的階段，我們必須將 AI 生成的內容複製貼上到其他程式中。然而，「電腦使用」功能的引進將徹底改變現狀。當 AI 能夠親自操作電腦這個「工具」時，意味著那些重複且繁瑣的工作，未來都能全權交給 AI 處理。

比喻來說，如果過去的 AI 是精通食譜的「美食評論家」，那麼現在的 AI 就是能直接走進廚房、手握菜刀並掌火的「主廚」。對於企業而言，這能大幅提升工作效率；對個人來說，則等同於擁有了一位能管理複雜數位環境的能幹秘書。根據 Source 1，開發者與企業現在已能透過 Gemini 3.5 Flash 建構並運作這些 AI 代理程式。

簡單理解：當 AI 握住滑鼠

所謂「電腦使用」功能，簡單來說，就是讓 AI 像人類一樣用「眼睛」看電腦螢幕，並用「手」使用滑鼠與鍵盤來執行指令。為了達成此目標，AI 學習了控制瀏覽器、操作行動裝置與桌面應用程式的流程。

那些龐大的數位拼圖，人類不再需要手動點擊滑鼠逐一拼湊，AI 將能瞬間完成。根據 Source 2 與 Source 4，這項技術能協助 AI 代理程式跨越瀏覽器與各類軟體，代替使用者自動化執行複雜任務。

現況：給開發者的創新

目前，Gemini 3.5 Flash 這項創新功能是透過面向開發者的 API，以及企業級平台「Gemini Enterprise Agent Platform」所提供。根據 Source 1 與 Source 3，Google 也同步準備了企業級的安全防護措施 (Enterprise safeguards)，確保企業能安心使用。

不過，這並不代表一般使用者現在就能在個人電腦設定中直接開啟「AI 模式」。現階段主要是由企業或服務開發者將這些「聰明的員工」配置到應用程式或工作環境中。

未來展望

我們很快就會看到 AI 不再僅限於聊天視窗中，而是活躍在電腦作業系統 (OS) 的每一個角落。「幫我找出網購平台上價格最低的商品並結帳」、「結合我常用的這三個 App 來製作月度報告草稿」——這類需求，未來 AI 都將能自動切換於各瀏覽器與應用程式間來解決。Source 2 預測，此次更新將使打造跨平台代理程式成為可能。

MindTickleBytes AI 記者觀點

AI 不僅跨越了寫作與編碼的門檻，現在更親手掌握了「電腦」這個工具。這暗示了人類的數位工作方式將被徹底重新定義。如果我們花在點擊滑鼠上的時間能由 AI 代勞，人類或許就能擁有更多時間，去專注於更具創造力與本質性的思考。

參考資料

Introducing computer use in Gemini 3.5 Flash

[Google’s Gemini 3.5 Flash can now build agents to operate across platforms

Seeking Alpha](https://seekingalpha.com/news/4606864-googles-gemini-3_5-flash-can-now-build-agents-to-operate-across-platforms)

[Gemini 3.5 Flash

Gemini Enterprise Agent Platform

Google Cloud Documentation](https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/3-5-flash)

[ComputerUse GeminiAPI Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)

Share this article:

測試你的理解

Q1. Gemini 3.5 Flash 新增的「電腦使用」功能可以做什麼？

AI 只負責直接進行程式設計
AI 可以直接操作瀏覽器與桌面應用程式來自動化處理工作
AI 僅負責管理使用者的電子郵件

「電腦使用」功能可協助 AI 直接點擊與操作瀏覽器或應用程式，讓其能自行處理複雜的工作任務。

Q2. 開發者可以在哪裡使用這項功能？

透過 Gemini API 與 Gemini Enterprise Agent Platform
個人智慧型手機的 App 設定
瀏覽器的設定選單

開發者與企業可以透過 Gemini API 和 Gemini Enterprise Agent Platform 來應用這項功能。

Q3. 這項功能的主要優勢是什麼？

AI 的執行速度會變慢
可以建構出跨平台的代理程式 (Agent)
不需要網際網路連線

Gemini 3.5 Flash 的電腦使用功能，能協助建構出在瀏覽器、行動裝置與桌面等多個平台間運作的客製化代理程式。