Google 為 Gemini 3.5 Flash 模型新增了「電腦使用」(Computer Use) 功能,賦予 AI 像人類一樣直接操作電腦的能力,進而自動化處理複雜的工作流程。
想像一下:早晨起床後,您對 AI 說:「請幫我整理今天會議所需的資料到相關資料夾中,並將重點撰寫成電子郵件草稿。」若是以前的 AI,頂多只能幫您整理內容,但現在,AI 時代已經來臨——它將能親自移動滑鼠、開啟視窗、搬移檔案,並在郵件視窗中輸入文字。Google 近期發表的 Gemini 3.5 Flash「電腦使用」(Computer Use) 功能,正是這場變革的主角。
為何這項功能至關重要?
過去我們所使用的人工智慧 (AI),主要停留在「生成文字」或「生成圖像」的階段,我們必須將 AI 生成的內容複製貼上到其他程式中。然而,「電腦使用」功能的引進將徹底改變現狀。當 AI 能夠親自操作電腦這個「工具」時,意味著那些重複且繁瑣的工作,未來都能全權交給 AI 處理。
比喻來說,如果過去的 AI 是精通食譜的「美食評論家」,那麼現在的 AI 就是能直接走進廚房、手握菜刀並掌火的「主廚」。對於企業而言,這能大幅提升工作效率;對個人來說,則等同於擁有了一位能管理複雜數位環境的能幹秘書。根據 Source 1,開發者與企業現在已能透過 Gemini 3.5 Flash 建構並運作這些 AI 代理程式。
簡單理解:當 AI 握住滑鼠
所謂「電腦使用」功能,簡單來說,就是讓 AI 像人類一樣用「眼睛」看電腦螢幕,並用「手」使用滑鼠與鍵盤來執行指令。為了達成此目標,AI 學習了控制瀏覽器、操作行動裝置與桌面應用程式的流程。
那些龐大的數位拼圖,人類不再需要手動點擊滑鼠逐一拼湊,AI 將能瞬間完成。根據 Source 2 與 Source 4,這項技術能協助 AI 代理程式跨越瀏覽器與各類軟體,代替使用者自動化執行複雜任務。
現況:給開發者的創新
目前,Gemini 3.5 Flash 這項創新功能是透過面向開發者的 API,以及企業級平台「Gemini Enterprise Agent Platform」所提供。根據 Source 1 與 Source 3,Google 也同步準備了企業級的安全防護措施 (Enterprise safeguards),確保企業能安心使用。
不過,這並不代表一般使用者現在就能在個人電腦設定中直接開啟「AI 模式」。現階段主要是由企業或服務開發者將這些「聰明的員工」配置到應用程式或工作環境中。
未來展望
我們很快就會看到 AI 不再僅限於聊天視窗中,而是活躍在電腦作業系統 (OS) 的每一個角落。「幫我找出網購平台上價格最低的商品並結帳」、「結合我常用的這三個 App 來製作月度報告草稿」——這類需求,未來 AI 都將能自動切換於各瀏覽器與應用程式間來解決。Source 2 預測,此次更新將使打造跨平台代理程式成為可能。
MindTickleBytes AI 記者觀點
AI 不僅跨越了寫作與編碼的門檻,現在更親手掌握了「電腦」這個工具。這暗示了人類的數位工作方式將被徹底重新定義。如果我們花在點擊滑鼠上的時間能由 AI 代勞,人類或許就能擁有更多時間,去專注於更具創造力與本質性的思考。
參考資料
- Introducing computer use in Gemini 3.5 Flash
-
[Google’s Gemini 3.5 Flash can now build agents to operate across platforms Seeking Alpha](https://seekingalpha.com/news/4606864-googles-gemini-3_5-flash-can-now-build-agents-to-operate-across-platforms) -
[Gemini 3.5 Flash Gemini Enterprise Agent Platform Google Cloud Documentation](https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/3-5-flash) -
[ComputerUse GeminiAPI Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)
- AI 只負責直接進行程式設計
- AI 可以直接操作瀏覽器與桌面應用程式來自動化處理工作
- AI 僅負責管理使用者的電子郵件
- 透過 Gemini API 與 Gemini Enterprise Agent Platform
- 個人智慧型手機的 App 設定
- 瀏覽器的設定選單
- AI 的執行速度會變慢
- 可以建構出跨平台的代理程式 (Agent)
- 不需要網際網路連線