AI 可以親自操控我的電腦?Google Gemini 3.5 Flash 升級了

描繪 Google Gemini AI 觀看電腦螢幕並操作滑鼠與鍵盤的形象圖
AI Summary

Google 在 Gemini 3.5 Flash 中原生整合了「電腦使用」功能,使其能觀看並直接操作電腦螢幕,從而實現更快速、更智慧的 AI 代理開發。

想像一下:早上起床打開電腦,你對 AI 助理說:「幫我確認郵件裡的會議行程並註冊到日曆中,再搜尋並整理會議所需的資料。」以前的 AI 可能只會告訴你方法,但現在不同了。AI 像人一樣,能親自「看」著螢幕,並動手操作滑鼠和鍵盤來完成工作,這樣的時代已經來臨。

Google 最近發布的強大更新正是這一變化的核心。Google 的新一代 AI 模型「Gemini 3.5 Flash」原生內建了「電腦使用(Computer Use)」能力 出處 1出處 3

這為什麼重要?

過去,AI 在撰寫文字、編寫程式碼與生成圖片方面表現卓越,但在作業系統或特定應用程式中直接點擊滑鼠、按按鈕等「實際行動」上仍有限制。要實現這些,通常需要額外串接複雜的程式。

現在,Gemini 3.5 Flash 儼然已取得「電腦駕駛」執照。開發者現在無需繁瑣的中間過程,僅靠 Gemini 就能建構出能分析螢幕、判斷理由並付諸行動的 AI 代理 出處 2出處 12。這將徹底顛覆工作生產力,因為 AI 可以代勞諸如自動將 Excel 數據搬移至網站,或是根據環境最佳化複雜軟體設定等重複性工作。

輕鬆理解:透過比喻看 AI 的演變

我們來做個比喻:過去的 AI 就像一位「聰明的廚師」,僅能在廚房裡查看食譜、告訴你美味的烹飪法,或是指導你處理食材。但具備「電腦使用」功能的 Gemini 3.5 Flash,就像是廚師親手拿起廚具,親自完成料理

Gemini 3.5 Flash 基於 Transformer(透過解析句中單字關聯來理解脈絡的 AI 架構)技術,將螢幕元素視為語句中的單字來理解。它能透過螢幕資訊判斷按鈕位置、該點擊哪個選單,並自主判斷為了達成目標應按什麼順序操作 出處 1

目前狀況如何?

目前 Gemini 3.5 Flash 的操作水準相當細膩,在「OSWorld-Verified」電腦使用效能評測中獲得了 78.4% 的高分 出處 7。目前,Salesforce、Xero 與 Shopify 等全球企業已開始將此技術應用於工作自動化 出處 7

當然,它並非無所不能。Google 解釋,該技術在大型辦公室自動化或需即時分析螢幕數據並做出回應的情境(如即時防詐偵測)中,特別具有優勢 出處 9。現在,任何人都可以透過 Gemini API 與 Gemini Enterprise Agent 平台立即體驗此功能 出處 2

未來會有什麼轉變?

Gemini 3.5 Flash 的誕生,旨在為 AI 代替人類執行複雜任務的「代理時代(Agent Era)」鋪路 出處 5。未來,我們不需要再一一學習複雜的軟體操作,而是只需對 AI 下達明確目標。

Gemini 在需要長線思維的多階段任務或重複性程式作業中特別突出 出處 5。在不久的將來,我們會習以為常地看到:我們坐在電腦前休息喝咖啡,而 Gemini 正在電腦螢幕裡默默幫我們完成工作。

MindTickleBytes 的 AI 記者觀點

AI 終於獲得了數位世界的「手與腳」,這是一個極其重要的轉捩點。AI 從此跳脫了只能觀看螢幕訊息的角色,成為能親手握住滑鼠、推動世界的數位助理。這項變革將使我們的日常生活與工作方式更加便利且有趣,我們對此深感期待。

參考資料

  1. Introducing computer use in Gemini 3.5 Flash - The Keyword
  2. Google Adds Computer Use as a Native Tool in Gemini 3.5 Flash
  3. Google adds built-in computer control to Gemini 3.5 flash …
  4. Gemini 3.5 Flash Gets Powerful Computer Use Features
  5. [Gemini 3.5 Flash Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flash)
  6. Introducing computer use in Gemini 3.5 Flash - vuink.com
  7. Gemini 3.5 Flash integrates computer use for enhanced automation
  8. Computer use integrated into Gemini 3.5 Flash – The Bubble
  9. Exploring the Gemini 3.5 Flash Built-in Computer Use Tool - World Today News
  10. Google Gemini 3.5 Flash Gets Native Computer Use: AI Agent Controls Web, Mobile, Desktop - NPowerUser
  11. Google Introducing Computer Use In Gemini 3.5 Flash - Alphabet (NASDAQ:GOOGL), Alphabet (NASDAQ:GOOG) - Benzinga
  12. Gemini3.5Flashcan now see and control your screen, and Google…
測試你的理解
Q1. 此次更新為 Gemini 3.5 Flash 帶來的最大變化是什麼?
  • 無需獨立模型,直接內建電腦使用功能
  • 新增了新的圖形設計工具
  • 語音辨識速度提升 2 倍
Google 將電腦使用功能直接整合進 Gemini 3.5 Flash 中,改善了開發者無需使用額外獨立模型的需求。
Q2. Gemini 3.5 Flash 的電腦使用功能支援哪些環境?
  • 僅限網頁瀏覽器
  • 僅限行動裝置
  • 支援瀏覽器、行動裝置與桌面環境
Gemini 3.5 Flash 具備跨越網頁、行動與桌面環境的全方位操作能力。
Q3. Gemini 3.5 Flash 的主要設計目標是什麼?
  • 簡易的圖像生成
  • 即時對話練習
  • 執行基於代理的複雜任務
面對代理(Agent)時代,Gemini 3.5 Flash 旨在快速處理多階段工作流程與複雜的重複性程式編碼等實際任務。