如果把互联网的‘方向盘’交给 AI 会发生什么？会自主制造工具的‘浏览器马甲（Browser Harness）’诞生

AI Summary

介绍突破传统框架、赋予 AI 浏览器控制全权，并在任务过程中自主创建所需功能的‘自愈型’AI 工具——浏览器马甲（Browser Harness）。

引言：我们能把互联网的‘方向盘’完全交给 AI 吗？

想像一下。你拜托 AI 助手：“帮我找一张去巴黎最便宜的机票，然后帮我操作到支付前的最后一步。”如果是传统的 AI，一旦航空公司网站的设计稍有变动，或者弹出意料之外的弹窗，它可能就会以“找不到按钮”为由轻易放弃。

但现在情况正在发生翻天覆地的变化。AI 能够像人类一样直接浏览网站结构，甚至在缺乏解决问题的工具时，当场“变”出工具来完成任务。今天我们要介绍的技术就是 “浏览器马甲（Browser Harness）”。虽然名字听起来有点陌生，但你可以把它看作是帮助 AI 在互联网这片广阔海洋中自由遨游的一套特别的“潜水装备”。项目主页

为什么这很重要？ (Why It Matters)

我们迄今为止使用的 AI 自动化工具，实际上就像运行在“铁轨”上的火车。它们只能按照预设的轨道（预先编写的代码）移动。如果轨道稍有偏差或出现障碍物，火车就不得不停下来。网站菜单位置的细微变动或弹出“接受 Cookie”之类的窗口，就是这些“断掉的铁轨”。

但浏览器马甲会将“汽车”、“地图”以及车坏时可以使用的“工具箱”一股脑儿全都交给 AI。Hacker News 讨论这项技术改变世界的原因主要有三点：

真正的自主性：即使没有“怎么做”的详细指令，AI 只要有了地址和目标，就能自主判断并采取行动。就像一位老练的司机一样。使用指南
成本与时间的革新：开发者无需逐一教导“这个按钮在这里，那个文字在那边”。因为 AI 已经利用学到的常识来操作浏览器了。
不放弃的 AI：即使在任务过程中发生意外情况，它也能自行找到解决方案。这在技术上被称为“自愈（Self-healing）”，通俗地说就是 “一边修复问题一边工作的能力”。技术解析

最终，曾经需要我们手把手教的“被动助手”，现在进化成了能够独当一面的“全能私人秘书”。

深度解析：浏览器马甲的魔力 (The Explainer)

为了更容易理解“浏览器马甲”这个术语，我们来打几个比方。

1. 铁轨与汽车：框架 vs 马甲

传统的 AI 浏览器控制方式是框架（Framework，预设模版）方式。这就像游乐园的碰碰车，只能在固定区域内活动。相比之下，浏览器马甲是让 AI 与浏览器之间的隔阂变得极薄的“直连装置”。GitHub 项目

打个比方，传统方式是给 AI 一份写着“向右走三步，按下红色按钮”的指示信；而浏览器马甲则是对 AI 说：“看，这就是屏幕。你自己观察判断，找到需要的按钮按下去吧”，完全开放了视野和权限。技术博客

2. 592 行的美学：精简即力量

令人惊讶的是，构成浏览器马甲的 Python 代码仅有约 592 行。daily.dev 文章与通常由数万、数十万行代码组成的复杂软件相比，它显得极其精简。

为什么这么短？打个比方，对于一位厨艺精湛的大厨，不需要再给他一本复杂的食谱，只需准备好一把好刀和一个砧板即可。开发者相信 AI（LLM，大语言模型）已经充分理解了互联网世界的运行逻辑。因此，他们没有增加层层复杂的规则，而是干净利落地为 AI 开启了一条可以直接向浏览器下达指令的“透明通道”。Hacker News 讨论

3. 自愈（Self-healing）：“没有锤子？那就做一个！”

浏览器马甲最惊人的一点是其 “自愈” 能力。EveryDev 工具介绍想像一下。木匠在盖房子时发现没有锤子。普通的机器人会弹出“缺少锤子”的错误信息并停止工作；但装备了浏览器马甲的 AI 会当场利用周围的材料直接制造出一把锤子，然后继续钉钉子。

当 AI 在上网冲浪时判断“咦？我的工具箱里没有向下滚动屏幕的功能？”，它会立即亲自编写一段向下滚动的代码并添加到自己的功能中。这种在执行过程中自行填补空缺的惊人智能，正是浏览器马甲的核心所在。技术解析

现状：‘Browser Use’ 团队的果敢挑战 (Where We Stand)

这一创新工具诞生于名为‘Browser Use’团队的一个实验性项目。相关讨论他们注意到传统的自动化工具反而阻碍了 AI 的发展。过多的规则束缚了 AI 创造性解决问题的能力。

开发者果断打破了现有的复杂框架，决定给予 AI “最大限度的自由”。Hacker News 讨论他们选择的方法是 CDP（Chrome DevTools Protocol，直接操作浏览器内部功能的通信协议）。这是一种无需中间媒介、直接与浏览器的“大脑”对话的方式。PyShine 技术分享

目前，该项目已通过 GitHub 向全球公开，无数开发者正致力于利用它开发出更聪明、更独立的 AI 智能体。codeKK 项目详情

未来将如何发展？ (What’s Next)

浏览器马甲只是巨变的开始。现在技术的焦点正超越浏览器，转向能够自如操控整个计算机操作系统（OS）的 AI。Hacker News 评论

我们即将面对的未来可能是这样的：

真正的“专属秘书”：即使是完全不懂编程的人，也只需对 AI 说一句话。AI 会自动搜索购物网站寻找最低价，甚至完成复杂的政务文件申请。
在学习中进化的 AI：使用次数越多，AI 为自己制造并存储的工具就越多。随着时间的推移，它会成长为最契合你需求的资深专家。
Web 的新标准：未来，除了供人类阅读的页面外，具有易于 AI 理解结构的网站可能会变得更加重要。因为 AI 正在成为 Web 的主要用户。

AI 的视线：MindTickleBytes AI 记者观点

浏览器马甲的出现向我们提出了一个重要问题。这已经超越了“让 AI 做什么”，核心变成了 “我们要给 AI 多少信任和自由”。592 行的短代码之所以能比数万行的系统更强大，是因为它相信 AI 的原始潜力并移交了“方向盘”。这种能够自行修复工具并寻找目的地的 AI 形象，或许正是我们长期以来梦寐以求的真正“人工智能助手”的最真实写照。

参考资料

[GitHub - browser-use/browser-harness: 浏览器马甲

赋能 LLM 完成任务的自愈型马甲 · GitHub](https://github.com/browser-use/browser-harness)

[Show HN: 浏览器马甲 – 赋予 LLM 完成任何浏览器任务的自由 Hacker News](https://news.ycombinator.com/item?id=47890841)
浏览器马甲：赋予 LLM 全面浏览器控制权的自愈型 CDP 马甲
[Show HN: 通过直接 CDP 实现的自愈型浏览器马甲 Hacker News](https://news.ycombinator.com/item?id=47829234)

[GitHub - browser-use/browser-harness: 浏览器马甲

赋能 LLM 完成任务的自愈型马甲

daily.dev](https://app.daily.dev/posts/github—browser-use-browser-harness-browser-harness-self-healing-harness-that-enables-llms-to-co-d4cjl5tv6)

[浏览器马甲：为什么你的 AI 智能体需要直接控制浏览器（而非另一个框架）

Flowtivity](https://flowtivity.ai/blog/browser-harness-why-your-ai-agent-needs-direct-browser-control/)

[浏览器马甲-LLM浏览器自动化马甲 EveryDev.ai](https://www.everydev.ai/tools/browser-harness)
ShowHN: 浏览器马甲 – 赋予 LLM 自由完成任何…
[OpenClaw 浏览器马甲 — 让你的 AI 智能体… OpenClaw Launch](https://openclawlaunch.com/guides/openclaw-browser-harness)
browser-harness 自愈型浏览器马甲 @codeKK…

[介绍浏览器马甲：自愈型浏览器解决方案

LinkedIn](https://www.linkedin.com/posts/gregorzunic_introducing-browser-harness-a-self-healing-activity-7451332286463021056–dUT)

[浏览器马甲 - 用于 AI 浏览器控制的最薄马甲… PyShine](https://pyshine.com/browser-harness-ai-agent-browser-control/)

Share this article:

测试你的理解

Q1. 浏览器马甲（Browser Harness）与传统自动化工具相比，最大的特点是什么？

仅按照预设规则行动
具备在任务过程中自主编写所需功能的‘自愈’能力
必须付费后才能使用

浏览器马甲具备‘自愈（Self-healing）’能力，当 AI 在执行任务过程中发现缺少必要工具时，会实时编写并添加代码。

Q2. 浏览器马甲使用哪种通信协议来直接控制浏览器？

CDP (Chrome DevTools Protocol)
HTTP (HyperText Transfer Protocol)
FTP (File Transfer Protocol)

浏览器马甲利用 CDP 协议，无需中间媒介即可直接且精细地控制真实浏览器。

Q3. 构成浏览器马甲的 Python 代码长度大约是多少？

约 5,000 行
约 10,000 行
约 592 行

浏览器马甲由约 592 行非常精简的核心代码组成，因此运行轻快且高效。