全新工具 Agent-desktop 正式公開,它利用電腦的「輔助功能樹(Accessibility Tree)」讓 AI 直接操控應用程式,無需進行截圖或圖像分析。
引言:AI 助手開始「真正」理解我的電腦了
請想像一下。您對 AI 助手說:「幫我打開上個月的家計簿 Excel 檔案,跟這個月的信用卡帳單對照一下。」到目前為止,AI 為了完成這項任務,必須一張張截取螢幕畫面,並在照片中用「眼睛(電腦視覺)」尋找 Excel 按鈕在哪裡、數字是什麼。
打個比方,這就像是在迷霧繚繞的迷宮中,僅依靠一支小手電筒尋找出口。AI 每次都要掃描並分析螢幕,不僅耗時,還經常出錯。但現在,AI 終於可以撥開雲霧,直接讀取電腦的「設計藍圖」來進行作業。這都要歸功於一項名為 Agent-desktop 的創新技術。Show HN: Agent-desktop - 適用於 AI 代理的原生桌面自動化 CLI
為什麼這很重要?
我們每天使用的電腦程式與網站的結構完全不同。網站是以 AI 易於讀取的程式碼透明公開的,但安裝在 PC 上的 Excel、Photoshop 等程式,AI 很難窺見其內部。
現有的 AI 代理(AI Agent,能自主判斷並行動的 AI 程式)若要操控 PC,通常必須分析螢幕圖像,但這面臨三大難題:
- 速度緩慢:分析高解析度螢幕截圖需要相當長的時間。就像是把整本書拍下來,再逐字辨認一樣。
- 準確度低:只要其他視窗稍微遮住按鈕,或是更換 Windows 主題導致圖示形狀改變,AI 就會立刻迷失方向。
- 成本高昂:為了用「眼睛」看螢幕,必須持續運作昂貴的「視覺模型 (Vision Model)」,這會消耗大量的運算能力與費用。
| Agent-desktop 以完全不同的方式解決這個問題。它不再從外部「看」螢幕,而是選擇直接讀取電腦作業系統內部已經擁有的「資訊地圖」。[DesktopCtl | AI 代理的桌面控制](https://desktopctl.com/) |
易於理解:為「盲人助手」準備的點字地圖成為 AI 的武器
這項技術的核心是名為 輔助功能樹 (Accessibility Tree) 的系統。GitHub - ericclemmons/agent-native
輔助功能樹最初是為了幫助視障人士而設計的。為了方便無法看見螢幕的人,電腦作業系統 (OS) 會將目前螢幕上有哪些按鈕、寫了哪些文字,整理成一張隱形的結構化地圖。螢幕閱讀器 (Screen Reader) 會讀取這張地圖並以語音引導使用者。
Agent-desktop 相當於把這張「點字地圖」交給了 AI。
- 比喻來說:如果傳統方式是在複雜的迷宮中睜著眼東奔西跑尋找路徑,Agent-desktop 的方式就像是手握迷宮的完整設計圖,直接瞬間移動到目的地。
透過直接讀取「設計藍圖」,AI 無需拍攝截圖,就能 100% 準確地掌握應用程式的結構。GitHub - lahfir/agent-desktop
Agent-desktop 的主要特點:AI 小巧卻強大的精密之手
此工具開始被開發者評為「最有效率的 AI 助手之手」。具體特點如下:
1. 極其快速且輕量(小而精悍!)
此程式是使用名為 Rust 的極速且穩定的現代程式語言製作的。agent-desktop 整個安裝檔案的大小僅約 15MB。打個比方,重量僅相當於用智慧型手機拍攝的 2~3 張高解析度照片。安裝非常簡便,且無需複雜的附屬程式即可立即運作。Show HN: Agent-desktop - 適用於 AI 代理的原生桌面自動化 CLI
2. 使用 AI 易於理解的語言 (JSON) 溝通
當 AI 詢問「現在螢幕上有什麼?」時,Agent-desktop 不會使用只有電腦懂的複雜電訊號,而是使用 JSON 格式回答。簡單來說,就像提供一份整理得井井有條的「收據清單」或「目錄」般的結構化數據。Agent-Desktop: 桌面 AI 自動化 CLI - PromptZone 這讓 AI 能更明確地判斷狀況並採取行動。
3. 無所不能的 53 種萬能技巧
此工具具備從點擊到視窗管理共 53 個精確指令。Show HN: Agent-desktop - 適用於 AI 代理的原生桌面自動化 CLI AI 可以組合這些指令,在您的 PC 上輕鬆完成以下任務:agent-desktop | Agents AI 代理技能 | SkillsCat
- 準確尋找並按下無數按鈕與核取方塊
- 像真人一樣在文本輸入框中打字
- 毫無阻礙地導覽複雜程式的選單
- 透過拖放 (Drag and Drop) 移動檔案
- 讀取剪貼簿內容或寫入新內容
- 開啟、關閉及調整多個執行中視窗的大小
現狀:來到我們身邊的「真正」本地 AI
| 目前 Agent-desktop 已發展為「跨平台」工具,可用於 Windows、macOS、Linux 等我們使用的幾乎所有電腦環境。Show HN: Agent-desktop - 適用於 AI 代理的原生桌面自動化 CLI 全球許多 AI 開發者已經開始為他們的 AI 代理裝上這隻精密的「手」。[Agent Desktop - 適用於 AI 代理的桌面自動化 CLI | EveryDev.ai](https://www.everydev.ai/tools/agent-desktop) |
| 事實上,像 Goose 這樣的開源 AI 代理正積極利用這類技術,在使用者電腦中直接修改檔案與操作應用程式。[goose | 您的開源 AI 代理](https://goose-docs.ai/) 此外,Google 的 Gemini CLI 也正朝著在終端機環境中直接利用 PC 工具來修復錯誤等複雜實務的方向進化。[Gemini CLI | Gemini Code Assist | Google for Developers](https://developers.google.com/gemini-code-assist/docs/gemini-cli) |
當然,並非所有應用程式都能完美提供「輔助功能樹」,這仍是一項挑戰。但我們常用的辦公軟體或系統設定應用程式,目前已達到能以此方式完美控制的程度。Agent Desktop — AI 技能 — Termo
未來會如何?(請想像一下)
當這類工具普及後,我們對待電腦的方式將會完全改變。Accio Work - 將創意轉化為利潤的本地優先桌面 AI 代理
請想像一下。 週一早上,您喝著咖啡對 AI 說:「幫我從上週收到的電子郵件中挑出所有收據,整理成 Excel 檔案。然後把那個檔案存到『5 月支出』資料夾,再用通訊軟體傳給組長。」
接著,AI 會利用 Agent-desktop 這個強大的工具,自動開啟郵件程式尋找收據、執行 Excel 製作表格、透過檔案管理員移動檔案,瞬間完成這一系列過程。
最重要的是,這一切過程都無需將數據上傳到外部伺服器,而是在我的電腦內部 (Local) 安全且快速地完成。真正意義上的「個人助手」時代已經近在咫尺。Agent-Desktop: 桌面 AI 自動化 CLI - PromptZone
AI 觀點:MindTickleBytes AI 記者的觀點
過去 AI 代理操作桌面應用程式的方式,就像是戴著厚重的連指手套嘗試進行精密手術一樣遲鈍。但 Agent-desktop 像是為 AI 裝上了極其銳利且精密的「手術工具」。
特別是在重視資訊安全的時代,無需將螢幕畫面傳送到雲端伺服器,即可在本地處理所有自動化任務,這是非常令人鼓舞的變化。未來競爭的核心將不再僅限於「哪款 AI 更聰明」,而是「哪款 AI 能更快速、準確地操作我電腦中的工具」。AI 終於坐上了操控我們 PC 這台龐大機器的「真正駕駛座」。
參考資料
- GitHub - lahfir/agent-desktop: 適用於 AI 代理的原生桌面自動化 CLI。透過具有結構化 JSON 輸出和確定性元素引用的 OS 輔助功能樹控制任何應用程式。 · GitHub
-
[DesktopCtl AI 代理的桌面控制](https://desktopctl.com/) - Agent Desktop — AI 技能 — Termo
- GitHub - ericclemmons/agent-native: 適用於 AI 代理的 macOS 原生應用程式自動化 CLI · GitHub
- agent-desktop
-
[goose 您的開源 AI 代理](https://goose-docs.ai/) - agent-desktop - MCP 商店
- Accio Work - 將創意轉化為利潤的本地優先桌面 AI 代理
-
[Gemini CLI Gemini Code Assist Google for Developers](https://developers.google.com/gemini-code-assist/docs/gemini-cli) - Show HN: Agent-desktop - 適用於 AI 代理的原生桌面自動化 CLI …
- Agent-Desktop: 桌面 AI 自動化 CLI - PromptZone
-
[Agent Desktop - 適用於 AI 代理的桌面自動化 CLI EveryDev.ai](https://www.everydev.ai/tools/agent-desktop) -
[agent-desktop Agents AI 代理技能 SkillsCat](https://skills.cat/skills/lahfir/agent-desktop/agent-desktop)
- 網路瀏覽器
- 輔助功能樹 (Accessibility Tree)
- 滑鼠巨集
- Python
- JavaScript
- Rust
- 10 種
- 53 種
- 100 種