如果把互联网的‘方向盘’交给 AI 会发生什么?会自主制造工具的‘浏览器马甲(Browser Harness)’诞生

机器人手部自由操作浏览器窗口,背景实时生成代码的场景
AI Summary

介绍突破传统框架、赋予 AI 浏览器控制全权,并在任务过程中自主创建所需功能的‘自愈型’AI 工具——浏览器马甲(Browser Harness)。

引言:我们能把互联网的‘方向盘’完全交给 AI 吗?

想像一下。你拜托 AI 助手:“帮我找一张去巴黎最便宜的机票,然后帮我操作到支付前的最后一步。”如果是传统的 AI,一旦航空公司网站的设计稍有变动,或者弹出意料之外的弹窗,它可能就会以“找不到按钮”为由轻易放弃。

但现在情况正在发生翻天覆地的变化。AI 能够像人类一样直接浏览网站结构,甚至在缺乏解决问题的工具时,当场“变”出工具来完成任务。今天我们要介绍的技术就是 “浏览器马甲(Browser Harness)”。虽然名字听起来有点陌生,但你可以把它看作是帮助 AI 在互联网这片广阔海洋中自由遨游的一套特别的“潜水装备”。项目主页

为什么这很重要? (Why It Matters)

我们迄今为止使用的 AI 自动化工具,实际上就像运行在“铁轨”上的火车。它们只能按照预设的轨道(预先编写的代码)移动。如果轨道稍有偏差或出现障碍物,火车就不得不停下来。网站菜单位置的细微变动或弹出“接受 Cookie”之类的窗口,就是这些“断掉的铁轨”。

但浏览器马甲会将“汽车”、“地图”以及车坏时可以使用的“工具箱”一股脑儿全都交给 AI。Hacker News 讨论 这项技术改变世界的原因主要有三点:

  1. 真正的自主性:即使没有“怎么做”的详细指令,AI 只要有了地址和目标,就能自主判断并采取行动。就像一位老练的司机一样。使用指南
  2. 成本与时间的革新:开发者无需逐一教导“这个按钮在这里,那个文字在那边”。因为 AI 已经利用学到的常识来操作浏览器了。
  3. 不放弃的 AI:即使在任务过程中发生意外情况,它也能自行找到解决方案。这在技术上被称为“自愈(Self-healing)”,通俗地说就是 “一边修复问题一边工作的能力”技术解析

最终,曾经需要我们手把手教的“被动助手”,现在进化成了能够独当一面的“全能私人秘书”。

深度解析:浏览器马甲的魔力 (The Explainer)

为了更容易理解“浏览器马甲”这个术语,我们来打几个比方。

1. 铁轨与汽车:框架 vs 马甲

传统的 AI 浏览器控制方式是框架(Framework,预设模版)方式。这就像游乐园的碰碰车,只能在固定区域内活动。相比之下,浏览器马甲是让 AI 与浏览器之间的隔阂变得极薄的“直连装置”。GitHub 项目

打个比方,传统方式是给 AI 一份写着“向右走三步,按下红色按钮”的指示信;而浏览器马甲则是对 AI 说:“看,这就是屏幕。你自己观察判断,找到需要的按钮按下去吧”,完全开放了视野和权限。技术博客

2. 592 行的美学:精简即力量

令人惊讶的是,构成浏览器马甲的 Python 代码仅有约 592 行daily.dev 文章 与通常由数万、数十万行代码组成的复杂软件相比,它显得极其精简。

为什么这么短?打个比方,对于一位厨艺精湛的大厨,不需要再给他一本复杂的食谱,只需准备好一把好刀和一个砧板即可。开发者相信 AI(LLM,大语言模型)已经充分理解了互联网世界的运行逻辑。因此,他们没有增加层层复杂的规则,而是干净利落地为 AI 开启了一条可以直接向浏览器下达指令的“透明通道”。Hacker News 讨论

3. 自愈(Self-healing):“没有锤子?那就做一个!”

浏览器马甲最惊人的一点是其 “自愈” 能力。EveryDev 工具介绍 想像一下。木匠在盖房子时发现没有锤子。普通的机器人会弹出“缺少锤子”的错误信息并停止工作;但装备了浏览器马甲的 AI 会当场利用周围的材料直接制造出一把锤子,然后继续钉钉子。

当 AI 在上网冲浪时判断“咦?我的工具箱里没有向下滚动屏幕的功能?”,它会立即亲自编写一段向下滚动的代码并添加到自己的功能中。这种在执行过程中自行填补空缺的惊人智能,正是浏览器马甲的核心所在。技术解析

现状:‘Browser Use’ 团队的果敢挑战 (Where We Stand)

这一创新工具诞生于名为‘Browser Use’团队的一个实验性项目。相关讨论 他们注意到传统的自动化工具反而阻碍了 AI 的发展。过多的规则束缚了 AI 创造性解决问题的能力。

开发者果断打破了现有的复杂框架,决定给予 AI “最大限度的自由”Hacker News 讨论 他们选择的方法是 CDP(Chrome DevTools Protocol,直接操作浏览器内部功能的通信协议)。这是一种无需中间媒介、直接与浏览器的“大脑”对话的方式。PyShine 技术分享

目前,该项目已通过 GitHub 向全球公开,无数开发者正致力于利用它开发出更聪明、更独立的 AI 智能体。codeKK 项目详情

未来将如何发展? (What’s Next)

浏览器马甲只是巨变的开始。现在技术的焦点正超越浏览器,转向能够自如操控整个计算机操作系统(OS)的 AI。Hacker News 评论

我们即将面对的未来可能是这样的:

  • 真正的“专属秘书”:即使是完全不懂编程的人,也只需对 AI 说一句话。AI 会自动搜索购物网站寻找最低价,甚至完成复杂的政务文件申请。
  • 在学习中进化的 AI:使用次数越多,AI 为自己制造并存储的工具就越多。随着时间的推移,它会成长为最契合你需求的资深专家。
  • Web 的新标准:未来,除了供人类阅读的页面外,具有易于 AI 理解结构的网站可能会变得更加重要。因为 AI 正在成为 Web 的主要用户。

AI 的视线:MindTickleBytes AI 记者观点

浏览器马甲的出现向我们提出了一个重要问题。这已经超越了“让 AI 做什么”,核心变成了 “我们要给 AI 多少信任和自由”。592 行的短代码之所以能比数万行的系统更强大,是因为它相信 AI 的原始潜力并移交了“方向盘”。这种能够自行修复工具并寻找目的地的 AI 形象,或许正是我们长期以来梦寐以求的真正“人工智能助手”的最真实写照。

参考资料

  1. [GitHub - browser-use/browser-harness: 浏览器马甲 赋能 LLM 完成任务的自愈型马甲 · GitHub](https://github.com/browser-use/browser-harness)
  2. [Show HN: 浏览器马甲 – 赋予 LLM 完成任何浏览器任务的自由 Hacker News](https://news.ycombinator.com/item?id=47890841)
  3. 浏览器马甲:赋予 LLM 全面浏览器控制权的自愈型 CDP 马甲
  4. [Show HN: 通过直接 CDP 实现的自愈型浏览器马甲 Hacker News](https://news.ycombinator.com/item?id=47829234)
  5. [GitHub - browser-use/browser-harness: 浏览器马甲 赋能 LLM 完成任务的自愈型马甲 daily.dev](https://app.daily.dev/posts/github—browser-use-browser-harness-browser-harness-self-healing-harness-that-enables-llms-to-co-d4cjl5tv6)
  6. [浏览器马甲:为什么你的 AI 智能体需要直接控制浏览器(而非另一个框架) Flowtivity](https://flowtivity.ai/blog/browser-harness-why-your-ai-agent-needs-direct-browser-control/)
  7. [浏览器马甲-LLM浏览器自动化马甲 EveryDev.ai](https://www.everydev.ai/tools/browser-harness)
  8. ShowHN: 浏览器马甲 – 赋予 LLM 自由完成任何…
  9. [OpenClaw 浏览器马甲 — 让你的 AI 智能体… OpenClaw Launch](https://openclawlaunch.com/guides/openclaw-browser-harness)
  10. browser-harness 自愈型浏览器马甲 @codeKK…
  11. [介绍浏览器马甲:自愈型浏览器解决方案 LinkedIn](https://www.linkedin.com/posts/gregorzunic_introducing-browser-harness-a-self-healing-activity-7451332286463021056–dUT)
  12. [浏览器马甲 - 用于 AI 浏览器控制的最薄马甲… PyShine](https://pyshine.com/browser-harness-ai-agent-browser-control/)
测试你的理解
Q1. 浏览器马甲(Browser Harness)与传统自动化工具相比,最大的特点是什么?
  • 仅按照预设规则行动
  • 具备在任务过程中自主编写所需功能的‘自愈’能力
  • 必须付费后才能使用
浏览器马甲具备‘自愈(Self-healing)’能力,当 AI 在执行任务过程中发现缺少必要工具时,会实时编写并添加代码。
Q2. 浏览器马甲使用哪种通信协议来直接控制浏览器?
  • CDP (Chrome DevTools Protocol)
  • HTTP (HyperText Transfer Protocol)
  • FTP (File Transfer Protocol)
浏览器马甲利用 CDP 协议,无需中间媒介即可直接且精细地控制真实浏览器。
Q3. 构成浏览器马甲的 Python 代码长度大约是多少?
  • 约 5,000 行
  • 约 10,000 行
  • 约 592 行
浏览器马甲由约 592 行非常精简的核心代码组成,因此运行轻快且高效。