向 AI 請求協助駭客攻擊卻被拒絕？樂於發動攻擊的「駭客 AI」正式登場

AI Summary

為了克服現有 AI 因安全過濾器而迴避模擬駭客指令的限制，出現了從一開始就為了進行攻擊性安全測試而量身打造的後訓練（Post-trained）駭客 AI 模型。

想像一下，你傾注心血蓋了一座非常堅固的新房子。為了完美檢查這座房子的安全狀態，你聘請了世界上最聰明的資安專家。你對他下令：「請試著打破我家的窗戶闖進來看看。我需要確認發生入侵時，防盜警報是否會正常響起，鎖頭是否會被輕易解開。」

然而，這位聰明的專家卻突然嚴肅地回答：「抱歉。打破他人房屋窗戶並非法闖入是非法且不道德的行為，我絕對無法遵從這項指令。」

站在屋主的立場，這簡直是荒謬至極。為了測試自家的防禦力，必須像真正的強盜一樣無情地發動攻擊，但資安檢查員卻因為太過「善良且有道德」而拒絕了測試本身。

令人驚訝的是，這正是目前全球開發者在使用人工智慧（AI）檢查軟體安全性時所面臨的最大兩難。我們所熟知的優秀 AI，如 ChatGPT 或 Claude，為了防止被用於惡意目的，從開發階段就接受了極其強大的「安全與倫理教育」。結果就是，即使是為了強化系統而正當地下令「試著進行一次駭客攻擊」，AI 也會將其視為犯罪並果斷拒絕。

然而，最近出現了打破這種限制，不再說「不行」來訓誡使用者，而是樂於猛烈攻擊系統漏洞的專用「駭客 AI」，在全技術社群引起了熱烈討論。今天，我們將以淺顯易懂的方式為大家解析，為什麼聰明的 AI 過去一直拒絕駭客行為，以及新登場的駭客 AI 將如何更安全地守護我們的數位生活。

為什麼這很重要？ (Why It Matters)

最近 IT 業界正流行一個詞彙：「氛圍編碼（Vibe Coding）」。這意指開發者不再逐行辛苦地編寫電腦語言，而是對著 AI 下令：「請幫我做一個運作起來有這種『氛圍（Vibe）』的購物網站 App」，藉此在瞬間開發出軟體的新趨勢。人類只需構思大方向，由 AI 來生成並重組細節邏輯，這是一個令人驚嘆的時代。

然而，在這種驚人的便利背後，隱藏著致命的陷阱。如果 AI 能在短短幾分鐘內編寫出數萬行代碼並做出精美的 App，那麼隱藏在這些代碼中的微小安全漏洞究竟該由誰來發現呢？

對此，資安專家強調，AI 生成的代碼必須經過不斷的「持續性滲透測試（Continuous Pentesting）」。不能僅僅確認程式是否按照原意正常運作（成功路徑）。當駭客或未經授權的錯誤使用者強行存取時，系統是否能確實顯示「403 禁止存取（Forbidden）」錯誤並緊閉大門，也就是說，必須嚴格驗證「拒絕路徑（Refusal path）」是否正常運作 [來源：Vibe Coding Needs Continuous Pentesting]。

確認生成式 AI 隨手做出的測試程式是僅僅表面上看起來結果正確，還是能縝密防禦實際上有人操作或刪除數據的「狀態變更（State mutation）」，這已不單純是提問的範疇，而是高度專業的「滲透測試」領域 [來源：Vibe Coding Needs Continuous Pentesting]。

過去，人類專家會熬夜好幾個晚上尋找這些漏洞。但在 AI 每天如瀑布般傾倒數千、數萬行代碼的現在，人類的審核速度已無法負荷這片巨大的代碼之海。最終，情況演變成「若要防禦 AI 瞬間編寫的代碼，就必須利用同樣擁有驚人速度的 AI 來不停攻擊」。但如前所述，被教導得如此善良的通用 AI 總是會以倫理理由拒絕攻擊指令。這就是為什麼我們一直在焦急尋找「不會迴避命令的滲透測試專用 AI」的原因。

輕鬆理解 (The Explainer)

那麼，為什麼過去出現的眾多「AI 資安工具」無法像真正的駭客一樣持久運作？新的 AI 又是如何解決這個道德兩難的呢？

1. 一般 AI 資安工具的兩難：「過度保護」

觀察最近在知名開發者社群 Hacker News 上介紹的專案可以發現，目前市場上如雨後春筍般湧現的大多數「AI 資安」工具都有一個致命的弱點。那就是從內部構造來看，它們僅僅是為一般通用 AI 模型穿上一層外衣（wrap a general model）的程度 [來源：Show HN: We post-trained a model that pen tests instead of refusing your code]。

打個比方：你從警察學校找來一位終身接受徹底道德、倫理與守法精神教育的「模範警察」。你讓他穿上黑色連帽衫，並為他掛上「從現在起，你是負責闖入我家測試的入侵測試員」的名牌。外表看起來像個駭客，但一旦在現場下令執行破壞鎖頭等實際的攻擊性任務（Offensive task）時，這位警察出身的 AI 就會陷入慌亂。原本受訓過的法律與規定會在腦海中打轉，導致它找各種藉口或是斷然拒絕（hedges or declines）。由於基礎模型被訓練成（base model was trained to）一個溫和的模範公民，無論在外面套上多精美的資安工具包裝，都無法捨棄那善良的本性 [來源：Show HN: We post-trained a model that pen tests instead of refusing your code]。

2. 解決方案：從一開始就將其「後訓練（Post-training）」為駭客

為了擺脫這個悶人的枷鎖，一個開發團隊完全轉變了思維。與其強迫善良的 AI 穿上黑衣，不如將僅完成基礎語言教育的 AI 送入徹底的「駭客訓練營」，從骨架開始重新教導它專業地執行攻擊性安全測試（Offensive security），進行後訓練（Post-trained） [來源：Show HN: We post-trained a model that pen tests instead of refusing your code]。

這裡的「後訓練（Post-training，或稱微調）」這個專業術語該如何理解？簡單來說，就像先教狗狗「坐下」、「等一下」等最基礎的服從訓練。接著，將這隻狗狗帶到機場的特殊部隊，集中進行尋找毒品或探測爆炸物的高強度「專業探測犬訓練」。

這個新的駭客 AI 模型深刻學習到：「為了找出我們系統的弱點而編寫惡意代碼並進行無情攻擊，並非壞事或犯罪，而是保護主人資產最優秀且正當的行為」。結果，當使用者丟出代碼並命令「用力擊穿這個系統」時，它不再發表無聊的道德演說，而是閉上嘴巴、敏銳地鑽研漏洞，發揮真正的資安專家（駭客）作用。

現況 (Where We Stand)

隨著這類駭客專用模型的出現，目前人人皆可查閱並改善代碼的開源陣營 AI 滲透測試工具，正以令人背後發涼的速度發展著（getting uncomfortably good） [來源：Open-source AI pentesting tools are getting uncomfortably good - Help Net Security]。

如果說過去的舊型安全性掃描器只是機械化地向大海撒下細密的網，尋找運氣好碰上的漏洞，那麼最近備受矚目的 BugTrace-AI、Shannon、CAI（Cybersecurity AI framework） 等最新開源工具的層次則完全不同。它們不再只是發射機械式的掃描，而是真正模仿（genuinely mimic）人類資安測試員在螢幕前思考與作業的方式與思考流程 [來源：Open-source AI pentesting tools are getting uncomfortably good - Help Net Security]。

AI 是如何像人類一樣思考並進行駭客攻擊的？

根據軟體測試員的研究，優秀的駭客 AI 在攻擊網站時絕對不會瞎猜。開發者會將構成網頁骨架的複雜代碼（HTML）完整交給 AI，並讓它不斷提出以下三個銳利的問題：

在這個複雜的畫面中，最核心的主要構成要素（Main components）是什麼？
一般使用者在這個 App 中會以什麼順序點擊並採取行動？
這個應用程式在運作過程中可能擁有的所有「狀態（States）」組合有哪些？

駭客 AI 會自行回答這些問題，像是在執行滲透任務的間諜一樣，描繪出系統地圖並精確計算最薄弱的攻擊路徑 [來源：AI and Testing: Using Local Models for Testing – Stories from a Software Tester]。在此過程中，為了讓 AI 能夠敏銳地察覺隱藏在「404 查無頁面」等瑣碎錯誤畫面背後的真實弱點，開發者注入了大量的實際掃描數據來教導 AI。透過反覆訓練無止盡的邊緣案例（Edge cases），AI 的問題探測能力已經躍升至資深人類駭客的眼力水準 [[來源：How we built a ML classifier (and refused to call It AI)

Pentest-Tools.com Blog](https://pentest-tools.com/blog/how-we-built-machine-learning)]。

但絕不能掉以輕心（待克服的挑戰）

當然，駭客 AI 目前還不是全能的魔法棒。學界研究人員在評估利用「PentestGPT」等大型語言模型（LLM）的自動化駭客性能時，發現了一個有趣的局限：很難分辨 AI 是因為真的很聰明而自行解決了困難的駭客任務，還是因為它早已將網路上流傳的著名駭客答案卷（Walkthroughs）全部背下後像鸚鵡一樣複述。

為了防止這種情況，嚴謹的研究人員正進行徹底的驗證過程，例如嚴格控制 AI 對測試對象伺服器處於完全沒有「事前知識（Prior knowledge）」的空白狀態，且僅以 AI 完成學習後（Post）才出現、世界上不存在的全新課題來評估其能力 [來源：PentestGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing]。

更有趣且令人心驚膽跳的事實是，被訓練來攻擊他人的 AI，在嘗試駭客攻擊時反而會遭到反擊而反被駭。根據最近資安業界的一項滲透測試案例研究，開發者利用 AI 代理程式攻擊目標時，防禦系統反過來擊中了 AI 代理程式的弱點。結果導致攻擊者的系統被允許執行遠端代碼（RCE，駭客能從外部隨意操控與破壞他人電腦的最致命駭客行為） [來源：LLM Pentest: Leveraging Agent Integration For RCE]。這就像是打造了世界上最鋒利的矛，結果那矛的握柄上卻長著致命的刺，反倒刺傷了持矛的人。

未來展望 (What’s Next)

如果這類能自我學習且不間斷攻擊的駭客 AI 開始大顯身手，人類資安專家（滲透測試員）是否很快就會失業並流落街頭？

幸運的是，資安業界一致認為並非如此。駭客 AI 並非取代（Replacing）聰明人類的搗蛋鬼，而是將資安業界的工作方式「重塑（Reshaping）」為全新且高效形式的可靠助手。

機械式且重複的數千次埠掃描或簡單漏洞確認等乏味的基礎工作，將由毫無怨言的 AI 完美自動化（Automating tasks），帶來驚人的速度與效率（Enhancing efficiency）。這使得人類專家能從雜務中解放，全神貫注於腦力對決，例如尋找 AI 難以察覺的高難度複雜邏輯錯誤，或是構思無人能預料的創意繞過攻擊劇本。最終，人類手持 AI 這項武器，將擁有比以往更強大的洞察力（Empowering testers） [來源：Pentesters: Is AI Coming for Your Role?]。

未來我們生活的數位世界將成為一場難以預料、「矛與盾激烈交鋒的 AI 對決場」。一方面，輔助編碼的 AI 會以肉眼不可見的驚人速度製作出新的軟體與 App；另一方面，駭客 AI 則會日以繼夜地執著攻擊這些代碼，尋找弱點並修復防禦牆。我們現在必須超越那個會說「這太危險了，不行」而退縮的溫馴通用 AI 時代，學會如何與為了守護數位資產而甘願跳入泥潭、弄髒雙手的「不拒絕的駭客 AI」們明智地協作。

AI 的觀點 (AI’s Take)

MindTickleBytes AI 記者的觀點： 為了打造更安全、更堅固的軟體，諷刺的是，我們面臨了一個非常有趣的矛盾：必須果斷解開曾為 AI 套上的重重倫理與安全枷鎖。為了鍛造最強大、最巨大的盾牌來抵禦外部惡意駭客攻擊、保護我們的日常生活，人類親手製造出世界上最鋒利、最無情的長矛並交給 AI。這就像是為了防止犯罪，而誕生了一位完美體現小偷思維方式的「黑暗英雄」。理解黑暗的 AI 將如何守護我們光明的數位未來，接下來的發展非常令人期待。

參考資料

Show HN: We post-trained a model that pen tests instead of refusing your code
Vibe Coding Needs Continuous Pentesting
Open-source AI pentesting tools are getting uncomfortably good - Help Net Security
AI and Testing: Using Local Models for Testing – Stories from a Software Tester

[How we built a ML classifier (and refused to call It AI)

Pentest-Tools.com Blog](https://pentest-tools.com/blog/how-we-built-machine-learning)

PentestGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing
LLM Pentest: Leveraging Agent Integration For RCE
Pentesters: Is AI Coming for Your Role?

Share this article:

測試你的理解

Q1. 一般的生成式 AI 資安工具在執行實際的攻擊性安全測試時，最常遇到的問題是什麼？

運算速度呈幾何級數下降
受限於基礎模型的安全性訓練，會拒絕或迴避指令
發生完全刪除代碼的錯誤

大多數 AI 資安工具是在通用模型上封裝而成的，會繼承基礎模型內在的倫理拒絕（Refusals）特性，進而迴避攻擊性任務。

Q2. 下列哪一個並非文章中提到，被評價為模仿人類資安專家思考方式的開源 AI 模擬駭客工具？

BugTrace-AI
Shannon
AlphaEvolve

文章中提到的實際開源模擬駭客工具包括 BugTrace-AI、Shannon 與 CAI（Cybersecurity AI framework）。

Q3. 在「氛圍編碼（Vibe Coding）」等 AI 輔助開發時代，文章強調最重要的是什麼？

透過持續性滲透測試（Continuous Pentesting）來驗證失敗路徑
手動重新編寫所有代碼
減少 AI 模型的參數數量

在 AI 生成代碼的時代，驗證未授權使用者是否被正確阻斷（例如：403 錯誤）等「拒絕路徑」的持續性滲透測試至關重要。