新工具 Agent-desktop 现已发布。它利用电脑的“辅助功能树”,让 AI 无需截图或图像分析即可直接控制应用程序。
引言:AI 助手开始“真正”理解我的电脑了
想象一下。你请求 AI 助手:“打开上个月的家庭收支 Excel 文件,并与本月的信用卡账单进行对比。” 至今为止,AI 为了完成这项任务,必须一张张截取屏幕,并在这些照片中依靠“眼睛(计算机视觉)”去寻找 Excel 按钮在哪里、数字是什么。
打个比方,这就像在浓雾弥漫的迷宫中,仅依靠一把小手电筒寻找出口。由于 AI 每次都要扫描并分析屏幕,既耗时又容易出错。但现在,AI 终于可以拨开云雾,直接通过读取电脑的“设计图”来进行操作。这都要归功于一项名为 Agent-desktop 的创新技术。Show HN: Agent-desktop - AI 智能体原生桌面自动化 CLI
为什么这很重要?
我们每天使用的电脑程序与网站的结构完全不同。网站的代码透明且易于 AI 读取,但安装在 PC 上的 Office、Excel、Photoshop 等程序,AI 很难窥视其内部。
传统的 AI 智能体(AI Agent,能够自主判断并行动的 AI 程序)如果要控制 PC,必须分析屏幕图像,这带来了三大难题:
- 速度慢:分析高清截屏图像需要消耗大量时间。就像是把整本书拍下来,再逐个识别文字一样。
- 准确度低:如果有其他窗口稍微挡住了按钮,或者因为更换了 Windows 主题导致图标形状稍有变化,AI 就会立刻迷路。
- 成本高:为了用“眼”看屏幕,必须持续运行昂贵的“人工智能视觉模型(Vision Model)”,这会消耗巨大的算力资源。
| Agent-desktop 以完全不同的方式解决了这个问题。它不再从外部“观察”屏幕,而是选择直接读取电脑操作系统内部已经拥有的“信息地图”。[DesktopCtl | AI 智能体桌面控制](https://desktopctl.com/) |
易于理解:为“盲人助手”准备的盲文地图成了 AI 的武器
这项技术的核心是一个略显陌生的系统——辅助功能树 (Accessibility Tree)。GitHub - ericclemmons/agent-native
辅助功能树最初是为了帮助视障人士而创建的。为了服务无法看到屏幕的用户,电脑操作系统(OS)会将当前屏幕上有哪些按钮、写着哪些文字整理成一张不可见的结构化地图。屏幕阅读器(Screen Reader)通过读取这张地图来为用户提供语音导航。
Agent-desktop 相当于直接给 AI 递上了这张“盲文地图”。
- 比喻来说:如果传统方式是在复杂的迷宫中睁大眼睛寻找出路,那么 Agent-desktop 方式就是手握迷宫的完整设计图,直接瞬间移动到目的地。
通过直接读取“设计图”,AI 无需截图就能 100% 准确地掌握应用的结构。GitHub - lahfir/agent-desktop
Agent-desktop 的主要特点:AI 精巧而强大的“双手”
该工具正被开发者们评价为“最高效的 AI 助手之手”。其具体特点如下:
1. 极速且轻量(小身材大能量!)
该程序使用最新、快速且稳定的编程语言 Rust 开发。agent-desktop 官网 整个安装文件的大小仅约 15MB。打个比方,它的重量仅相当于用智能手机拍摄的 2~3 张高清照片。安装非常简便,无需复杂的辅助程序即可立即运行。Show HN: Agent-desktop - AI 智能体原生桌面自动化 CLI
2. 使用 AI 易于理解的语言 (JSON) 进行对话
当 AI 询问“现在屏幕上显示的是什么?”时,Agent-desktop 不会使用只有电脑能听懂的复杂电信号,而是使用 JSON 格式。简单来说,它就像是一份整理得井井有条的“收据清单”或“目录”,以结构化的数据格式提供答案。Agent-Desktop:桌面 AI 自动化 CLI - PromptZone 这使得 AI 能够更清晰地判断状况并采取行动。
3. 无所不能的 53 种全能技巧
该工具拥有从单击到窗口管理的总计 53 个精细命令。Show HN: Agent-desktop - AI 智能体原生桌面自动化 CLI AI 可以组合这些命令,在你的 PC 上利落地完成以下任务:agent-desktop | AI 智能体技能 | SkillsCat
- 精确查找并点击众多的按钮和复选框
- 像真人一样在文本输入框中键入文字
- 顺畅地浏览复杂程序的菜单
- 通过拖放 (Drag & Drop) 移动文件
- 读取剪贴板内容或写入新内容
- 打开、关闭及调整多个正在运行的窗口大小
现状:来到我们身边的“真实”本地 AI
| 目前,Agent-desktop 已成为一款“跨平台”工具,可在 Windows、macOS、Linux 等几乎所有我们使用的电脑环境中使用。Show HN: Agent-desktop - AI 智能体原生桌面自动化 CLI 全球许多 AI 开发者已经在为自己的 AI 智能体安装这双精密的“手”。[Agent Desktop - AI 智能体桌面自动化 CLI | EveryDev.ai](https://www.everydev.ai/tools/agent-desktop) |
| 例如,像 Goose 这样的开源 AI 智能体正在积极利用此类技术,以便在用户的电脑中直接修改文件和操作应用。[goose | 你的开源 AI 智能体](https://goose-docs.ai/) 此外,谷歌的 Gemini CLI 也在向着在终端环境中直接利用 PC 工具来修复 Bug 等复杂实操方向进化。[Gemini CLI | Gemini Code Assist | Google for Developers](https://developers.google.com/gemini-code-assist/docs/gemini-cli) |
当然,目前仍面临并非所有应用都能完美提供“辅助功能树”的挑战。但在我们常用的办公软件或系统设置应用中,其控制水平已经达到了完美的程度。Agent Desktop — AI 技能 — Termo
未来会怎样?(请想象一下)
随着此类工具的普及,我们对待电脑的方式将发生彻底改变。Accio Work - 将想法转化为收益的本地优先桌面 AI 智能体
试着想象一下。 周一早上,你一边喝着咖啡,一边对 AI 说:“把上周收到的邮件中所有收据找出来,整理成 Excel 文件。然后把那个文件保存到‘5月支出’文件夹,并用即时通讯软件发给组长。”
随后,AI 将利用 Agent-desktop 这一强大工具,瞬间完成打开邮件应用寻找收据、运行 Excel 制作表格、通过文件管理器移动文件等一系列过程。
最重要的是,所有这些过程都不会将你的数据上传到外部服务器,而是在你的电脑内部 (Local) 安全且快速地完成。真正意义上的“个人助手”时代已经近在咫尺。Agent-Desktop:桌面 AI 自动化 CLI - PromptZone
AI 视角:MindTickleBytes AI 记者的观察
此前,AI 智能体操作桌面应用的方式就像是戴着厚厚的连指手套尝试进行精密手术,既迟钝又令人沮丧。而 Agent-desktop 则像是为 AI 递上了一套非常锋利且精密的“手术器械”。
特别是在这个对安全极度敏感的时代,无需将屏幕画面传输到云端服务器,所有自动化都在本地处理,这是一个非常令人鼓舞的变化。未来,核心竞争力将不再仅仅是“哪个 AI 更聪明”,而是“哪个 AI 能更快、更准确地操控我电脑里的工具”。AI 终于坐上了操控 PC 这台巨大机器的“真实驾驶位”。
参考资料
- GitHub - lahfir/agent-desktop: AI 智能体原生桌面自动化 CLI。通过 OS 辅助功能树控制任何应用,具有结构化 JSON 输出和确定性元素引用。
-
[DesktopCtl AI 智能体桌面控制](https://desktopctl.com/) - Agent Desktop — AI 技能 — Termo
- GitHub - ericclemmons/agent-native: 针对 AI 智能体的 macOS 原生应用自动化 CLI
- agent-desktop 官网
-
[goose 你的开源 AI 智能体](https://goose-docs.ai/) - agent-desktop - MCP 商店
- Accio Work - 将想法转化为收益的本地优先桌面 AI 智能体
-
[Gemini CLI Gemini Code Assist Google for Developers](https://developers.google.com/gemini-code-assist/docs/gemini-cli) - Show HN: Agent-desktop - AI 智能体原生桌面自动化 CLI …
- Agent-Desktop:桌面 AI 自动化 CLI - PromptZone
-
[Agent Desktop - AI 智能体桌面自动化 CLI EveryDev.ai](https://www.everydev.ai/tools/agent-desktop) -
[agent-desktop AI 智能体技能 SkillsCat](https://skills.cat/skills/lahfir/agent-desktop/agent-desktop)
- 网页浏览器
- 辅助功能树 (Accessibility Tree)
- 鼠标宏
- Python
- JavaScript
- Rust
- 10 种
- 53 种
- 100 种