介绍突破传统框架、赋予 AI 浏览器控制全权,并在任务过程中自主创建所需功能的‘自愈型’AI 工具——浏览器马甲(Browser Harness)。
引言:我们能把互联网的‘方向盘’完全交给 AI 吗?
想像一下。你拜托 AI 助手:“帮我找一张去巴黎最便宜的机票,然后帮我操作到支付前的最后一步。”如果是传统的 AI,一旦航空公司网站的设计稍有变动,或者弹出意料之外的弹窗,它可能就会以“找不到按钮”为由轻易放弃。
但现在情况正在发生翻天覆地的变化。AI 能够像人类一样直接浏览网站结构,甚至在缺乏解决问题的工具时,当场“变”出工具来完成任务。今天我们要介绍的技术就是 “浏览器马甲(Browser Harness)”。虽然名字听起来有点陌生,但你可以把它看作是帮助 AI 在互联网这片广阔海洋中自由遨游的一套特别的“潜水装备”。项目主页
为什么这很重要? (Why It Matters)
我们迄今为止使用的 AI 自动化工具,实际上就像运行在“铁轨”上的火车。它们只能按照预设的轨道(预先编写的代码)移动。如果轨道稍有偏差或出现障碍物,火车就不得不停下来。网站菜单位置的细微变动或弹出“接受 Cookie”之类的窗口,就是这些“断掉的铁轨”。
但浏览器马甲会将“汽车”、“地图”以及车坏时可以使用的“工具箱”一股脑儿全都交给 AI。Hacker News 讨论 这项技术改变世界的原因主要有三点:
- 真正的自主性:即使没有“怎么做”的详细指令,AI 只要有了地址和目标,就能自主判断并采取行动。就像一位老练的司机一样。使用指南
- 成本与时间的革新:开发者无需逐一教导“这个按钮在这里,那个文字在那边”。因为 AI 已经利用学到的常识来操作浏览器了。
- 不放弃的 AI:即使在任务过程中发生意外情况,它也能自行找到解决方案。这在技术上被称为“自愈(Self-healing)”,通俗地说就是 “一边修复问题一边工作的能力”。技术解析
最终,曾经需要我们手把手教的“被动助手”,现在进化成了能够独当一面的“全能私人秘书”。
深度解析:浏览器马甲的魔力 (The Explainer)
为了更容易理解“浏览器马甲”这个术语,我们来打几个比方。
1. 铁轨与汽车:框架 vs 马甲
传统的 AI 浏览器控制方式是框架(Framework,预设模版)方式。这就像游乐园的碰碰车,只能在固定区域内活动。相比之下,浏览器马甲是让 AI 与浏览器之间的隔阂变得极薄的“直连装置”。GitHub 项目
打个比方,传统方式是给 AI 一份写着“向右走三步,按下红色按钮”的指示信;而浏览器马甲则是对 AI 说:“看,这就是屏幕。你自己观察判断,找到需要的按钮按下去吧”,完全开放了视野和权限。技术博客
2. 592 行的美学:精简即力量
令人惊讶的是,构成浏览器马甲的 Python 代码仅有约 592 行。daily.dev 文章 与通常由数万、数十万行代码组成的复杂软件相比,它显得极其精简。
为什么这么短?打个比方,对于一位厨艺精湛的大厨,不需要再给他一本复杂的食谱,只需准备好一把好刀和一个砧板即可。开发者相信 AI(LLM,大语言模型)已经充分理解了互联网世界的运行逻辑。因此,他们没有增加层层复杂的规则,而是干净利落地为 AI 开启了一条可以直接向浏览器下达指令的“透明通道”。Hacker News 讨论
3. 自愈(Self-healing):“没有锤子?那就做一个!”
浏览器马甲最惊人的一点是其 “自愈” 能力。EveryDev 工具介绍 想像一下。木匠在盖房子时发现没有锤子。普通的机器人会弹出“缺少锤子”的错误信息并停止工作;但装备了浏览器马甲的 AI 会当场利用周围的材料直接制造出一把锤子,然后继续钉钉子。
当 AI 在上网冲浪时判断“咦?我的工具箱里没有向下滚动屏幕的功能?”,它会立即亲自编写一段向下滚动的代码并添加到自己的功能中。这种在执行过程中自行填补空缺的惊人智能,正是浏览器马甲的核心所在。技术解析
现状:‘Browser Use’ 团队的果敢挑战 (Where We Stand)
这一创新工具诞生于名为‘Browser Use’团队的一个实验性项目。相关讨论 他们注意到传统的自动化工具反而阻碍了 AI 的发展。过多的规则束缚了 AI 创造性解决问题的能力。
开发者果断打破了现有的复杂框架,决定给予 AI “最大限度的自由”。Hacker News 讨论 他们选择的方法是 CDP(Chrome DevTools Protocol,直接操作浏览器内部功能的通信协议)。这是一种无需中间媒介、直接与浏览器的“大脑”对话的方式。PyShine 技术分享
目前,该项目已通过 GitHub 向全球公开,无数开发者正致力于利用它开发出更聪明、更独立的 AI 智能体。codeKK 项目详情
未来将如何发展? (What’s Next)
浏览器马甲只是巨变的开始。现在技术的焦点正超越浏览器,转向能够自如操控整个计算机操作系统(OS)的 AI。Hacker News 评论
我们即将面对的未来可能是这样的:
- 真正的“专属秘书”:即使是完全不懂编程的人,也只需对 AI 说一句话。AI 会自动搜索购物网站寻找最低价,甚至完成复杂的政务文件申请。
- 在学习中进化的 AI:使用次数越多,AI 为自己制造并存储的工具就越多。随着时间的推移,它会成长为最契合你需求的资深专家。
- Web 的新标准:未来,除了供人类阅读的页面外,具有易于 AI 理解结构的网站可能会变得更加重要。因为 AI 正在成为 Web 的主要用户。
AI 的视线:MindTickleBytes AI 记者观点
浏览器马甲的出现向我们提出了一个重要问题。这已经超越了“让 AI 做什么”,核心变成了 “我们要给 AI 多少信任和自由”。592 行的短代码之所以能比数万行的系统更强大,是因为它相信 AI 的原始潜力并移交了“方向盘”。这种能够自行修复工具并寻找目的地的 AI 形象,或许正是我们长期以来梦寐以求的真正“人工智能助手”的最真实写照。
参考资料
-
[GitHub - browser-use/browser-harness: 浏览器马甲 赋能 LLM 完成任务的自愈型马甲 · GitHub](https://github.com/browser-use/browser-harness) -
[Show HN: 浏览器马甲 – 赋予 LLM 完成任何浏览器任务的自由 Hacker News](https://news.ycombinator.com/item?id=47890841) - 浏览器马甲:赋予 LLM 全面浏览器控制权的自愈型 CDP 马甲
-
[Show HN: 通过直接 CDP 实现的自愈型浏览器马甲 Hacker News](https://news.ycombinator.com/item?id=47829234) -
[GitHub - browser-use/browser-harness: 浏览器马甲 赋能 LLM 完成任务的自愈型马甲 daily.dev](https://app.daily.dev/posts/github—browser-use-browser-harness-browser-harness-self-healing-harness-that-enables-llms-to-co-d4cjl5tv6) -
[浏览器马甲:为什么你的 AI 智能体需要直接控制浏览器(而非另一个框架) Flowtivity](https://flowtivity.ai/blog/browser-harness-why-your-ai-agent-needs-direct-browser-control/) -
[浏览器马甲-LLM浏览器自动化马甲 EveryDev.ai](https://www.everydev.ai/tools/browser-harness) - ShowHN: 浏览器马甲 – 赋予 LLM 自由完成任何…
-
[OpenClaw 浏览器马甲 — 让你的 AI 智能体… OpenClaw Launch](https://openclawlaunch.com/guides/openclaw-browser-harness) - browser-harness 自愈型浏览器马甲 @codeKK…
-
[介绍浏览器马甲:自愈型浏览器解决方案 LinkedIn](https://www.linkedin.com/posts/gregorzunic_introducing-browser-harness-a-self-healing-activity-7451332286463021056–dUT) -
[浏览器马甲 - 用于 AI 浏览器控制的最薄马甲… PyShine](https://pyshine.com/browser-harness-ai-agent-browser-control/)
- 仅按照预设规则行动
- 具备在任务过程中自主编写所需功能的‘自愈’能力
- 必须付费后才能使用
- CDP (Chrome DevTools Protocol)
- HTTP (HyperText Transfer Protocol)
- FTP (File Transfer Protocol)
- 约 5,000 行
- 约 10,000 行
- 约 592 行