AI 可以直接操作我的電腦?Gemini 3.5 Flash「電腦使用」功能正式發布

Gemini 3.5 Flash 標誌與象徵 AI 代理操作電腦螢幕的形象圖
AI Summary

Google 為 Gemini 3.5 Flash 模型新增了「電腦使用」(Computer Use) 功能,賦予 AI 像人類一樣直接操作電腦的能力,進而自動化處理複雜的工作流程。

想像一下:早晨起床後,您對 AI 說:「請幫我整理今天會議所需的資料到相關資料夾中,並將重點撰寫成電子郵件草稿。」若是以前的 AI,頂多只能幫您整理內容,但現在,AI 時代已經來臨——它將能親自移動滑鼠、開啟視窗、搬移檔案,並在郵件視窗中輸入文字。Google 近期發表的 Gemini 3.5 Flash「電腦使用」(Computer Use) 功能,正是這場變革的主角。

為何這項功能至關重要?

過去我們所使用的人工智慧 (AI),主要停留在「生成文字」或「生成圖像」的階段,我們必須將 AI 生成的內容複製貼上到其他程式中。然而,「電腦使用」功能的引進將徹底改變現狀。當 AI 能夠親自操作電腦這個「工具」時,意味著那些重複且繁瑣的工作,未來都能全權交給 AI 處理。

比喻來說,如果過去的 AI 是精通食譜的「美食評論家」,那麼現在的 AI 就是能直接走進廚房、手握菜刀並掌火的「主廚」。對於企業而言,這能大幅提升工作效率;對個人來說,則等同於擁有了一位能管理複雜數位環境的能幹秘書。根據 Source 1,開發者與企業現在已能透過 Gemini 3.5 Flash 建構並運作這些 AI 代理程式。

簡單理解:當 AI 握住滑鼠

所謂「電腦使用」功能,簡單來說,就是讓 AI 像人類一樣用「眼睛」看電腦螢幕,並用「手」使用滑鼠與鍵盤來執行指令。為了達成此目標,AI 學習了控制瀏覽器、操作行動裝置與桌面應用程式的流程。

那些龐大的數位拼圖,人類不再需要手動點擊滑鼠逐一拼湊,AI 將能瞬間完成。根據 Source 2Source 4,這項技術能協助 AI 代理程式跨越瀏覽器與各類軟體,代替使用者自動化執行複雜任務。

現況:給開發者的創新

目前,Gemini 3.5 Flash 這項創新功能是透過面向開發者的 API,以及企業級平台「Gemini Enterprise Agent Platform」所提供。根據 Source 1Source 3,Google 也同步準備了企業級的安全防護措施 (Enterprise safeguards),確保企業能安心使用。

不過,這並不代表一般使用者現在就能在個人電腦設定中直接開啟「AI 模式」。現階段主要是由企業或服務開發者將這些「聰明的員工」配置到應用程式或工作環境中。

未來展望

我們很快就會看到 AI 不再僅限於聊天視窗中,而是活躍在電腦作業系統 (OS) 的每一個角落。「幫我找出網購平台上價格最低的商品並結帳」、「結合我常用的這三個 App 來製作月度報告草稿」——這類需求,未來 AI 都將能自動切換於各瀏覽器與應用程式間來解決。Source 2 預測,此次更新將使打造跨平台代理程式成為可能。

MindTickleBytes AI 記者觀點

AI 不僅跨越了寫作與編碼的門檻,現在更親手掌握了「電腦」這個工具。這暗示了人類的數位工作方式將被徹底重新定義。如果我們花在點擊滑鼠上的時間能由 AI 代勞,人類或許就能擁有更多時間,去專注於更具創造力與本質性的思考。

參考資料

  1. Introducing computer use in Gemini 3.5 Flash
  2. [Google’s Gemini 3.5 Flash can now build agents to operate across platforms Seeking Alpha](https://seekingalpha.com/news/4606864-googles-gemini-3_5-flash-can-now-build-agents-to-operate-across-platforms)
  3. [Gemini 3.5 Flash Gemini Enterprise Agent Platform Google Cloud Documentation](https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/3-5-flash)
  4. [ComputerUse GeminiAPI Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)
測試你的理解
Q1. Gemini 3.5 Flash 新增的「電腦使用」功能可以做什麼?
  • AI 只負責直接進行程式設計
  • AI 可以直接操作瀏覽器與桌面應用程式來自動化處理工作
  • AI 僅負責管理使用者的電子郵件
「電腦使用」功能可協助 AI 直接點擊與操作瀏覽器或應用程式,讓其能自行處理複雜的工作任務。
Q2. 開發者可以在哪裡使用這項功能?
  • 透過 Gemini API 與 Gemini Enterprise Agent Platform
  • 個人智慧型手機的 App 設定
  • 瀏覽器的設定選單
開發者與企業可以透過 Gemini API 和 Gemini Enterprise Agent Platform 來應用這項功能。
Q3. 這項功能的主要優勢是什麼?
  • AI 的執行速度會變慢
  • 可以建構出跨平台的代理程式 (Agent)
  • 不需要網際網路連線
Gemini 3.5 Flash 的電腦使用功能,能協助建構出在瀏覽器、行動裝置與桌面等多個平台間運作的客製化代理程式。