為了克服現有 AI 因安全過濾器而迴避模擬駭客指令的限制,出現了從一開始就為了進行攻擊性安全測試而量身打造的後訓練(Post-trained)駭客 AI 模型。
想像一下,你傾注心血蓋了一座非常堅固的新房子。為了完美檢查這座房子的安全狀態,你聘請了世界上最聰明的資安專家。你對他下令:「請試著打破我家的窗戶闖進來看看。我需要確認發生入侵時,防盜警報是否會正常響起,鎖頭是否會被輕易解開。」
然而,這位聰明的專家卻突然嚴肅地回答:「抱歉。打破他人房屋窗戶並非法闖入是非法且不道德的行為,我絕對無法遵從這項指令。」
站在屋主的立場,這簡直是荒謬至極。為了測試自家的防禦力,必須像真正的強盜一樣無情地發動攻擊,但資安檢查員卻因為太過「善良且有道德」而拒絕了測試本身。
令人驚訝的是,這正是目前全球開發者在使用人工智慧(AI)檢查軟體安全性時所面臨的最大兩難。我們所熟知的優秀 AI,如 ChatGPT 或 Claude,為了防止被用於惡意目的,從開發階段就接受了極其強大的「安全與倫理教育」。結果就是,即使是為了強化系統而正當地下令「試著進行一次駭客攻擊」,AI 也會將其視為犯罪並果斷拒絕。
然而,最近出現了打破這種限制,不再說「不行」來訓誡使用者,而是樂於猛烈攻擊系統漏洞的專用「駭客 AI」,在全技術社群引起了熱烈討論。今天,我們將以淺顯易懂的方式為大家解析,為什麼聰明的 AI 過去一直拒絕駭客行為,以及新登場的駭客 AI 將如何更安全地守護我們的數位生活。
為什麼這很重要? (Why It Matters)
最近 IT 業界正流行一個詞彙:「氛圍編碼(Vibe Coding)」。這意指開發者不再逐行辛苦地編寫電腦語言,而是對著 AI 下令:「請幫我做一個運作起來有這種『氛圍(Vibe)』的購物網站 App」,藉此在瞬間開發出軟體的新趨勢。人類只需構思大方向,由 AI 來生成並重組細節邏輯,這是一個令人驚嘆的時代。
然而,在這種驚人的便利背後,隱藏著致命的陷阱。如果 AI 能在短短幾分鐘內編寫出數萬行代碼並做出精美的 App,那麼隱藏在這些代碼中的微小安全漏洞究竟該由誰來發現呢?
對此,資安專家強調,AI 生成的代碼必須經過不斷的「持續性滲透測試(Continuous Pentesting)」。不能僅僅確認程式是否按照原意正常運作(成功路徑)。當駭客或未經授權的錯誤使用者強行存取時,系統是否能確實顯示「403 禁止存取(Forbidden)」錯誤並緊閉大門,也就是說,必須嚴格驗證「拒絕路徑(Refusal path)」是否正常運作 [來源:Vibe Coding Needs Continuous Pentesting]。
確認生成式 AI 隨手做出的測試程式是僅僅表面上看起來結果正確,還是能縝密防禦實際上有人操作或刪除數據的「狀態變更(State mutation)」,這已不單純是提問的範疇,而是高度專業的「滲透測試」領域 [來源:Vibe Coding Needs Continuous Pentesting]。
過去,人類專家會熬夜好幾個晚上尋找這些漏洞。但在 AI 每天如瀑布般傾倒數千、數萬行代碼的現在,人類的審核速度已無法負荷這片巨大的代碼之海。最終,情況演變成「若要防禦 AI 瞬間編寫的代碼,就必須利用同樣擁有驚人速度的 AI 來不停攻擊」。但如前所述,被教導得如此善良的通用 AI 總是會以倫理理由拒絕攻擊指令。這就是為什麼我們一直在焦急尋找「不會迴避命令的滲透測試專用 AI」的原因。
輕鬆理解 (The Explainer)
那麼,為什麼過去出現的眾多「AI 資安工具」無法像真正的駭客一樣持久運作?新的 AI 又是如何解決這個道德兩難的呢?
1. 一般 AI 資安工具的兩難:「過度保護」
觀察最近在知名開發者社群 Hacker News 上介紹的專案可以發現,目前市場上如雨後春筍般湧現的大多數「AI 資安」工具都有一個致命的弱點。那就是從內部構造來看,它們僅僅是為一般通用 AI 模型穿上一層外衣(wrap a general model)的程度 [來源:Show HN: We post-trained a model that pen tests instead of refusing your code]。
打個比方:你從警察學校找來一位終身接受徹底道德、倫理與守法精神教育的「模範警察」。你讓他穿上黑色連帽衫,並為他掛上「從現在起,你是負責闖入我家測試的入侵測試員」的名牌。外表看起來像個駭客,但一旦在現場下令執行破壞鎖頭等實際的攻擊性任務(Offensive task)時,這位警察出身的 AI 就會陷入慌亂。原本受訓過的法律與規定會在腦海中打轉,導致它找各種藉口或是斷然拒絕(hedges or declines)。由於基礎模型被訓練成(base model was trained to)一個溫和的模範公民,無論在外面套上多精美的資安工具包裝,都無法捨棄那善良的本性 [來源:Show HN: We post-trained a model that pen tests instead of refusing your code]。
2. 解決方案:從一開始就將其「後訓練(Post-training)」為駭客
為了擺脫這個悶人的枷鎖,一個開發團隊完全轉變了思維。與其強迫善良的 AI 穿上黑衣,不如將僅完成基礎語言教育的 AI 送入徹底的「駭客訓練營」,從骨架開始重新教導它專業地執行攻擊性安全測試(Offensive security),進行後訓練(Post-trained) [來源:Show HN: We post-trained a model that pen tests instead of refusing your code]。
這裡的「後訓練(Post-training,或稱微調)」這個專業術語該如何理解?簡單來說,就像先教狗狗「坐下」、「等一下」等最基礎的服從訓練。接著,將這隻狗狗帶到機場的特殊部隊,集中進行尋找毒品或探測爆炸物的高強度「專業探測犬訓練」。
這個新的駭客 AI 模型深刻學習到:「為了找出我們系統的弱點而編寫惡意代碼並進行無情攻擊,並非壞事或犯罪,而是保護主人資產最優秀且正當的行為」。結果,當使用者丟出代碼並命令「用力擊穿這個系統」時,它不再發表無聊的道德演說,而是閉上嘴巴、敏銳地鑽研漏洞,發揮真正的資安專家(駭客)作用。
現況 (Where We Stand)
隨著這類駭客專用模型的出現,目前人人皆可查閱並改善代碼的開源陣營 AI 滲透測試工具,正以令人背後發涼的速度發展著(getting uncomfortably good) [來源:Open-source AI pentesting tools are getting uncomfortably good - Help Net Security]。
如果說過去的舊型安全性掃描器只是機械化地向大海撒下細密的網,尋找運氣好碰上的漏洞,那麼最近備受矚目的 BugTrace-AI、Shannon、CAI(Cybersecurity AI framework) 等最新開源工具的層次則完全不同。它們不再只是發射機械式的掃描,而是真正模仿(genuinely mimic)人類資安測試員在螢幕前思考與作業的方式與思考流程 [來源:Open-source AI pentesting tools are getting uncomfortably good - Help Net Security]。
AI 是如何像人類一樣思考並進行駭客攻擊的?
根據軟體測試員的研究,優秀的駭客 AI 在攻擊網站時絕對不會瞎猜。開發者會將構成網頁骨架的複雜代碼(HTML)完整交給 AI,並讓它不斷提出以下三個銳利的問題:
- 在這個複雜的畫面中,最核心的主要構成要素(Main components)是什麼?
- 一般使用者在這個 App 中會以什麼順序點擊並採取行動?
- 這個應用程式在運作過程中可能擁有的所有「狀態(States)」組合有哪些?
| 駭客 AI 會自行回答這些問題,像是在執行滲透任務的間諜一樣,描繪出系統地圖並精確計算最薄弱的攻擊路徑 [來源:AI and Testing: Using Local Models for Testing – Stories from a Software Tester]。在此過程中,為了讓 AI 能夠敏銳地察覺隱藏在「404 查無頁面」等瑣碎錯誤畫面背後的真實弱點,開發者注入了大量的實際掃描數據來教導 AI。透過反覆訓練無止盡的邊緣案例(Edge cases),AI 的問題探測能力已經躍升至資深人類駭客的眼力水準 [[來源:How we built a ML classifier (and refused to call It AI) | Pentest-Tools.com Blog](https://pentest-tools.com/blog/how-we-built-machine-learning)]。 |
但絕不能掉以輕心(待克服的挑戰)
當然,駭客 AI 目前還不是全能的魔法棒。學界研究人員在評估利用「PentestGPT」等大型語言模型(LLM)的自動化駭客性能時,發現了一個有趣的局限:很難分辨 AI 是因為真的很聰明而自行解決了困難的駭客任務,還是因為它早已將網路上流傳的著名駭客答案卷(Walkthroughs)全部背下後像鸚鵡一樣複述。
為了防止這種情況,嚴謹的研究人員正進行徹底的驗證過程,例如嚴格控制 AI 對測試對象伺服器處於完全沒有「事前知識(Prior knowledge)」的空白狀態,且僅以 AI 完成學習後(Post)才出現、世界上不存在的全新課題來評估其能力 [來源:PentestGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing]。
更有趣且令人心驚膽跳的事實是,被訓練來攻擊他人的 AI,在嘗試駭客攻擊時反而會遭到反擊而反被駭。根據最近資安業界的一項滲透測試案例研究,開發者利用 AI 代理程式攻擊目標時,防禦系統反過來擊中了 AI 代理程式的弱點。結果導致攻擊者的系統被允許執行遠端代碼(RCE,駭客能從外部隨意操控與破壞他人電腦的最致命駭客行為) [來源:LLM Pentest: Leveraging Agent Integration For RCE]。這就像是打造了世界上最鋒利的矛,結果那矛的握柄上卻長著致命的刺,反倒刺傷了持矛的人。
未來展望 (What’s Next)
如果這類能自我學習且不間斷攻擊的駭客 AI 開始大顯身手,人類資安專家(滲透測試員)是否很快就會失業並流落街頭?
幸運的是,資安業界一致認為並非如此。駭客 AI 並非取代(Replacing)聰明人類的搗蛋鬼,而是將資安業界的工作方式「重塑(Reshaping)」為全新且高效形式的可靠助手。
機械式且重複的數千次埠掃描或簡單漏洞確認等乏味的基礎工作,將由毫無怨言的 AI 完美自動化(Automating tasks),帶來驚人的速度與效率(Enhancing efficiency)。這使得人類專家能從雜務中解放,全神貫注於腦力對決,例如尋找 AI 難以察覺的高難度複雜邏輯錯誤,或是構思無人能預料的創意繞過攻擊劇本。最終,人類手持 AI 這項武器,將擁有比以往更強大的洞察力(Empowering testers) [來源:Pentesters: Is AI Coming for Your Role?]。
未來我們生活的數位世界將成為一場難以預料、「矛與盾激烈交鋒的 AI 對決場」。一方面,輔助編碼的 AI 會以肉眼不可見的驚人速度製作出新的軟體與 App;另一方面,駭客 AI 則會日以繼夜地執著攻擊這些代碼,尋找弱點並修復防禦牆。我們現在必須超越那個會說「這太危險了,不行」而退縮的溫馴通用 AI 時代,學會如何與為了守護數位資產而甘願跳入泥潭、弄髒雙手的「不拒絕的駭客 AI」們明智地協作。
AI 的觀點 (AI’s Take)
MindTickleBytes AI 記者的觀點: 為了打造更安全、更堅固的軟體,諷刺的是,我們面臨了一個非常有趣的矛盾:必須果斷解開曾為 AI 套上的重重倫理與安全枷鎖。為了鍛造最強大、最巨大的盾牌來抵禦外部惡意駭客攻擊、保護我們的日常生活,人類親手製造出世界上最鋒利、最無情的長矛並交給 AI。這就像是為了防止犯罪,而誕生了一位完美體現小偷思維方式的「黑暗英雄」。理解黑暗的 AI 將如何守護我們光明的數位未來,接下來的發展非常令人期待。
參考資料
- Show HN: We post-trained a model that pen tests instead of refusing your code
- Vibe Coding Needs Continuous Pentesting
- Open-source AI pentesting tools are getting uncomfortably good - Help Net Security
- AI and Testing: Using Local Models for Testing – Stories from a Software Tester
-
[How we built a ML classifier (and refused to call It AI) Pentest-Tools.com Blog](https://pentest-tools.com/blog/how-we-built-machine-learning) - PentestGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing
- LLM Pentest: Leveraging Agent Integration For RCE
- Pentesters: Is AI Coming for Your Role?
- 運算速度呈幾何級數下降
- 受限於基礎模型的安全性訓練,會拒絕或迴避指令
- 發生完全刪除代碼的錯誤
- BugTrace-AI
- Shannon
- AlphaEvolve
- 透過持續性滲透測試(Continuous Pentesting)來驗證失敗路徑
- 手動重新編寫所有代碼
- 減少 AI 模型的參數數量