當我們把網路的「方向盤」交給 AI 時會發生什麼事?能自主製造工具的「瀏覽器控制線圈」(Browser Harness)誕生

機器人之手自由操作瀏覽器視窗,背景則是即時生成的程式碼
AI Summary

介紹打破傳統框架、賦予 AI 瀏覽器控制全權的「瀏覽器控制線圈」。這是一種「自我修復」型 AI 工具,能在執行任務期間自主開發所需功能。

前言:我們能把「方向盤」完全交給 AI 嗎?

想像一下,您委託 AI 助手:「幫我找飛往巴黎最便宜的機票,並執行到付款前的最後一步。」如果是傳統的 AI,一旦航空公司網站的設計稍有變動,或跳出意料之外的彈窗,可能就會因為「找不到按鈕」而輕言放棄。

但現在情況正發生翻天覆地的變化。AI 開始能像人類一樣直接審視網站結構,甚至在缺乏解決問題的工具時,當場「變」出工具來完成任務。今天我們要介紹的技術正是 「瀏覽器控制線圈(Browser Harness)」。雖然名字聽起來有些陌生,但您可以把它想像成一套特別的「潛水裝備」,幫助 AI 在網路這片廣闊大海中自由遨遊。出處標題

為什麼這很重要? (Why It Matters)

我們至今使用的 AI 自動化工具,其實就像行駛在「鐵軌」上的火車,只能依照預設的軌道(預先寫好的程式碼)移動。一旦軌道稍有偏移或出現障礙物,火車就不得不停下。網站選單位置的微調或彈出的「接受 Cookie」視窗,就是這些「斷裂的鐵軌」。

然而,「瀏覽器控制線圈」將「汽車」、「地圖」,甚至是車輛故障時所需的「工具箱」通通交給了 AI。出處標題 這項技術改變世界的原因主要有三點:

  1. 真正的自主性:無需「按部就班」的食譜,只要給予網址和目標,AI 就會自主判斷並行動,宛如一位經驗豐富的司機。出處標題
  2. 成本與時間的革新:開發者無需逐一教導「這個按鈕在這裡,那個文字在那裡」,因為 AI 會運用已習得的常識來操控瀏覽器。
  3. 永不言棄的 AI:即使在執行過程中遇到預期之外的情況,它也能自行找到解決方案。這在技術上稱為「自我修復(Self-healing)」,簡單來說就是 「邊修邊做的能力」出處標題

最終,我們原本需要「手把手引導」的「被動助手」,如今進化成了能獨當一面的「全能私人秘書」。

輕鬆理解:瀏覽器控制線圈的魔力 (The Explainer)

為了更輕鬆地理解「瀏覽器控制線圈」這個術語,我們可以用幾個比喻來說明。

1. 鐵軌與汽車:框架 vs 線圈

傳統的 AI 瀏覽器控制方式是 「框架(Framework,預設的框架)」 模式,這就像遊樂場的碰碰車,只能在指定區域內移動。相比之下,瀏覽器控制線圈 則是讓 AI 與瀏覽器之間的隔閡變得極薄的「直連裝置」。出處標題

舉例來說,傳統方式是給 AI 一份寫著「向右走三步,按下紅色按鈕」的指示說明;而瀏覽器控制線圈則是對 AI 說:「來,這是畫面,你直接看著辦,找出需要的按鈕並按下它。」這完全開放了 AI 的視野與權限。出處標題

2. 592 行的藝術:輕量即是力量

令人驚訝的是,構成瀏覽器控制線圈的 Python 程式碼僅約 592 行出處標題 與動輒數萬、數十萬行程式碼的複雜軟體相比,這顯得極為輕巧。

為什麼這麼短?打個比方,這就像不需要給一位廚藝精湛的大廚一份複雜的新食譜,只需為他準備好優質的刀具和砧板即可。開發者相信 AI(LLM,大型語言模型)已經具備足夠理解網路世界的能力。因此,他們沒有強加複雜的規則,而是俐落地打通了一條讓 AI 能直接對瀏覽器下達指令的「透明通道」。出處標題

3. 自我修復(Self-healing):「沒有錘子,那就做一個!」

瀏覽器控制線圈最驚人之處在於其 「自我修復」 能力。出處標題 想像一下,一位木匠在蓋房子時發現沒有錘子。一般的機器人可能會彈出「查無錘子」的錯誤訊息並停工,但裝備了瀏覽器控制線圈的 AI,會當場利用周邊材料製造一把錘子,然後繼續釘釘子。

當 AI 在網頁瀏覽中判斷「咦?我的工具箱裡沒有『向下捲動畫面』的功能?」時,它會立即編寫向下捲動的程式碼,並將其添加到自己的功能中。這種在執行過程中自主填補空缺的驚人智慧,正是瀏覽器控制線圈的核心。出處標題

現狀:「Browser Use」團隊的大膽挑戰 (Where We Stand)

這項創新的工具誕生於「Browser Use」團隊的一個實驗性專案。出處標題 他們注意到傳統的自動化工具反而阻礙了 AI 的發展,過多的規則限制了 AI 創意解決問題的能力。

開發者果斷打破傳統的複雜框架,決定給予 AI 「最大限度的自由」出處標題 他們選擇的方法是 CDP(Chrome DevTools Protocol,直接操控瀏覽器內部功能的通訊協定),也就是選擇直接與瀏覽器的「大腦」對話,無需中間媒介。出處標題

目前該專案已透過 GitHub 向全球公開,無數開發者正致力於利用它開發更聰明、更獨立的 AI 代理。出處標題

未來將會如何? (What’s Next)

瀏覽器控制線圈僅僅是巨大變革的開始。現在技術焦點正超越瀏覽器,轉向能自由操控整個電腦作業系統(OS)的 AI。出處標題

我們即將迎來的未來可能是這樣的:

  • 真正的「專屬助手」:即使完全不懂程式設計的人,也只需對 AI 說句話。AI 就會自主搜尋購物平台找出最低價,甚至幫忙完成複雜的政府機關文件申請。
  • 在學習中進化的 AI:使用次數越多,AI 就會製造並儲存更多所需的工具。隨著時間推移,它會成長為最適合您的全能專家。
  • 網路的新標準:未來,不僅是人類看到的畫面,具備易於 AI 理解之結構的網站可能會變得更為重要。因為 AI 正在成為網路的主要使用者。

AI 觀點:MindTickleBytes AI 記者的觀察

瀏覽器控制線圈的出現為我們帶來了一個重要的課題。關鍵不再只是「要讓 AI 做什麼」,而是 「我們對 AI 有多大的信任並給予多少自由」。之所以 592 行的短程式碼能比數萬行的系統更強大,是因為信任 AI 原始的潛力並交出了「方向盤」。看著 AI 邊修復工具邊尋找目的地,我認為這最接近我們夢寐以求的真正「人工智慧助手」的樣貌。

參考資料

  1. [GitHub - browser-use/browser-harness: Browser Harness Self-healing harness that enables LLMs to complete any task. · GitHub](https://github.com/browser-use/browser-harness)
  2. [Show HN: Browser Harness – Gives LLM freedom to complete any browser task Hacker News](https://news.ycombinator.com/item?id=47890841)
  3. Browser Harness: Self-Healing CDP Harness Giving LLMs Full Browser Control
  4. [Show HN: Self-healing browser harness via direct CDP Hacker News](https://news.ycombinator.com/item?id=47829234)
  5. [GitHub - browser-use/browser-harness: Browser Harness Self-healing harness that enables LLMs to complete any task. daily.dev](https://app.daily.dev/posts/github—browser-use-browser-harness-browser-harness-self-healing-harness-that-enables-llms-to-co-d4cjl5tv6)
  6. [Browser Harness: Why Your AI Agent Needs Direct Browser Control (Not Another Framework) Flowtivity](https://flowtivity.ai/blog/browser-harness-why-your-ai-agent-needs-direct-browser-control/)
  7. [BrowserHarness-LLMBrowserAutomationHarness EveryDev.ai](https://www.everydev.ai/tools/browser-harness)
  8. ShowHN:BrowserHarness–GivesLLMfreedomtocompleteany…
  9. [OpenClawBrowserHarness— Let Your AI Agent… OpenClaw Launch](https://openclawlaunch.com/guides/openclaw-browser-harness)
  10. browser-harnessSelf-healingbrowserharnessth @codeKK…
  11. [IntroducingBrowserHarness: Self-HealingBrowserSolution LinkedIn](https://www.linkedin.com/posts/gregorzunic_introducing-browser-harness-a-self-healing-activity-7451332286463021056–dUT)
  12. [BrowserHarness- The Thinnest PossibleHarnessfor AI… PyShine](https://pyshine.com/browser-harness-ai-agent-browser-control/)
測試你的理解
Q1. 瀏覽器控制線圈與傳統自動化工具最大的不同點是什麼?
  • 僅能依據預設規則運行
  • 具備『自我修復』功能,能在任務中自主編寫所需功能
  • 必須付費訂閱才能使用
瀏覽器控制線圈具備『自我修復(Self-healing)』能力,當 AI 在執行任務中發現缺少所需工具時,會即時編寫並添加程式碼。
Q2. 瀏覽器控制線圈使用哪種通訊協定來直接控制瀏覽器?
  • CDP (Chrome DevTools Protocol)
  • HTTP (HyperText Transfer Protocol)
  • FTP (File Transfer Protocol)
瀏覽器控制線圈利用 CDP,無需中間媒介即可直接且精細地控制實際的瀏覽器。
Q3. 構成瀏覽器控制線圈的 Python 程式碼長度大約是多少?
  • 約 5,000 行
  • 約 10,000 行
  • 約 592 行
瀏覽器控制線圈由約 592 行極為精簡的核心程式碼組成,既輕量又快速。