專為網路安全開發的 Anthropic AI 模型「Fable」,為了防止遭到濫用而導入盲目的關鍵字攔截系統,卻反而阻礙了專家防禦系統的必要工作,遭到業界強烈批評。
被剝奪防禦武器的資安 AI 悖論
想像一下這個情況。一位擁有數十年經驗的資深消防員,收到了政府配發的最先進消防 AI 機器人。這款機器人具備驚人的能力,能瞬間掌握建築物內部結構,並在 1 秒內預測火勢蔓延的路徑。在進入火場前,消防員對機器人下令:「告訴我這棟建築的結構脆弱點,以及火勢最可能迅速蔓延的路徑。」
然而,機器人卻突然閃爍起紅色的警告燈,並這樣回答:
「很抱歉。詢問建築物脆弱點或分析火勢蔓延路徑,是可能被『縱火犯』惡意利用的極度危險資訊,根據內部安全規定,我無法提供給您。」
結果,消防員只好關掉這台尖端機器人的電源,在沒有任何事前資訊的情況下,冒著生命危險赤手空拳地衝入火海。為拯救市民的英雄,竟因為機器人毫無彈性的規則,頓時被當成了潛在的罪犯。這實在令人感到十分無奈。
這種荒謬的情況,難道只是科幻電影裡才會出現的虛構情節嗎?遺憾的是,目前全球頂尖的網路安全(Cybersecurity,保護電腦系統與個人資訊免受駭客攻擊或資料外洩的技術)專家們,正在現實中經歷著完全相同的遭遇,並為此憤怒不已。
| 其原因正是人工智慧界的新星——Anthropic 最近雄心勃勃推出的最新 AI 模型 「Fable」。於週二向大眾公開的 Fable,在推出後不久便引發強烈不滿,因為其過度嚴格且缺乏彈性的安全機制(即所謂的「安全護欄,Guardrails」),嚴重妨礙了資安研究人員與現場專家的日常工作 [[資安研究人員對 Anthropic Fable 的安全護欄感到不滿 | TechCrunch](https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/)]。 |
為了防範駭客的惡意攻擊而打造出堅固的盾牌固然是好事,但這面盾牌卻變得過於厚重,反而把必須舉著它作戰的防禦者的手腳給緊緊綁死,上演了一場鬧劇 [資安研究人員對安全護欄感到不滿…]。
為什麼這很重要?(Why It Matters)
說到這裡,您可能會想:「阻止 AI 提供危險的駭客攻擊方法,難道不是件好事嗎?」這是一般使用者理所當然會有的疑問。畢竟,如果人工智慧毫無節制地幫人製作駭客工具,或是輕易交出致命生物武器的製造方法,光想像就是一場可怕的災難。然而,這個事件背後卻隱藏著與我們普通人日常生活息息相關的重大原因。
網路安全的世界是一場永無止境的「矛與盾」之戰。當心懷不軌的駭客(黑帽駭客)為了突破系統而不斷尋找新的攻擊手法時,保護我們珍貴個資與銀行帳戶的善良駭客(白帽駭客)和防禦者們,必須比他們搶先一步找出系統弱點,並築起堅固的防禦牆。
在這個過程中,防禦者必然需要站在攻擊者的立場來思考。打個比方,這就像為了製造疫苗,反過來必須完美掌握真實病毒的結構並親自進行處理是同樣的道理。防禦者會利用人工智慧分析數萬行複雜的程式碼,並親自攻擊自己打造的系統,藉此找出隱藏的漏洞(也就是所謂的滲透測試,Penetration testing) [資安研究人員批評 Anthropic Fable 嚴格的安全護欄阻礙了防禦工作]。
如果防禦者被剝奪了性能最頂尖的人工智慧工具,會發生什麼事呢?這就像因為病毒很危險,就連疫苗研究所的顯微鏡也一併沒收一樣。遵守法律與道德的善良資安專家們,在得不到 AI 幫助的情況下,只能仰賴緩慢且缺乏效率的手工作業。相反地,那些打從一開始就無視法律的罪犯們,卻能在暗網中盡情利用各種解除了安全管制的非法開源 AI,將駭客技術不斷升級。最終,盲目的管制只會讓我們親手摧毀保護社會數位基礎設施的防線,結果導致我們所有人的安全陷入更大的危險之中。
進一步來說,這個問題也與當前全球商業市場激烈的明爭暗鬥有著深厚的關聯。根據媒體報導與業界分析,據傳 Anthropic 目前正與 SpaceX 及 OpenAI 一同準備進行大規模的首次公開發行(IPO,將公司股票在證券市場上市以籌集大量資金) [Anthropic Fable 5 安全護欄引發資安研究人員的…]。
為了吸引巨額投資,Anthropic 必須將自己包裝成「世界上最執著於安全的 AI 企業」這樣的正面品牌形象。為了讓挑剔的股東們安心而強行鎖上大門的結果,最終卻讓那些在現場流血流汗的實際使用者承擔了所有損失,這正是外界提出批評的原因。
輕鬆理解(The Explainer)
究竟 Fable 是一款什麼樣的 AI 模型,竟會在資安業界掀起如此巨大的風暴?
事實上,這次向大眾公開的 Fable 本身並非完全從零開始打造的全新 AI。它是 Anthropic 所開發、被列為最高機密的高效能網路安全專用模型 「Mythos」 中,為了向一般大眾公開而限制了部分核心功能與存取權限的大眾版(Public and limited version) [Anthropic Fable 安全護欄面臨研究人員的強烈反彈]。原本的 Mythos 系列,是 Anthropic 過去大力吹捧、在資安相關知識與寫程式能力上擁有無人能及驚人效能的傳奇模型 [Anthropic 終於向大眾發布 Mythos,但它受到如此嚴密的防護,幾乎無法運作]。
然而,Anthropic 卻病態地擔心這個強大的天才會親切地告訴別人生物武器(Bio-threats)的製作方法,或是自動寫出專門攻擊無人知曉的軟體漏洞(零日漏洞,Zero-day exploits)的惡意軟體(Malware) [Claude Fable 安全護欄引發研究人員與… 的強烈反彈]。結果,為了從源頭阻斷濫用行為,Fable 模型被強制裝上了非比尋常且極度嚴格的「安全護欄(限制程式危險行為的一種安全帶)」。
正是在這裡發生了核心問題。Fable 內建的安全機制並沒有聰明到能夠理解人類的意圖,它過於單向且機械化。簡單來說,就是「毫不講理」。
一聽到關鍵字就抓人的「毫不講理機場警衛」
為了幫助理解,我們以機場安檢為例。您正在通過機場的安檢門。一名優秀的機場安檢人員,理應透過 X 光仔細檢查乘客行李中是否真的有爆裂物,並了解此人的旅行目的等整體背景,這才算正常。然而,這位警衛連行李看都不看一眼,只憑乘客說出口的「單字」來判斷一切。
一名隸屬於拆彈小組的警察與同事進行日常對話時說:「昨天為了解除『炸彈』,實在太辛苦了。」這時警衛卻突然走過來,說著「你剛才說了『炸彈』這個詞,所以你是恐怖分子!」,接著便捂住警察的嘴、銬上手銬並將他帶走。這完全不考慮對話的上下文或說話者的真實意圖(是善良的警察還是壞人),只要出現禁用詞,就機械式地抓人。
知名資安專家 Matthieu Suiche 正是如此精準地點出了 Fable 的運作方式。「這看起來完全是基於關鍵字(單字)在運作的。因此,只要問題中包含屬於『網路安全』詞彙領域的特定單字,安全護欄就會無條件啟動並拒絕回答。」 [資安專家對 Anthropic 的新 AI 感到不滿]
最新跑車突然變成故障的三輪車
問題到這裡還沒結束。Anthropic 在 Fable 5 模型中採取了一種小聰明的手法:當生物學或網路安全相關的極其普通問題也被安全機制(Safeguards)攔截時,它不會直接明言拒絕回答,而是背著使用者自動將問題轉移(路由,Routing)給舊版模型「Opus 4.8」處理 [ClaudeFable\Anthropic]。
這導致資安專家們連日常的請求都無法獲得正確答案,而面臨得到荒謬結果的窘境 [AnthropicClaudeFable5 安全機制阻擋… - Business Insider]。
把這個情況再用簡單的比喻來說是這樣的。您花了一大筆錢,租了世界上最快的最新型跑車(Fable 5)。在暢通無阻的高速公路上以時速 200 公里暢快奔馳著。然而,當導航顯示即將經過銀行門口時,車子卻自行隨意判定「這個駕駛可能是銀行搶匪」,然後突然變成了一輛時速只有 10 公里的生鏽三輪車(Opus 4.8)。
駕駛完全無法得知,究竟是我租的最新跑車真實性能原本就只有這樣,還是因為我駕駛技術不足導致車子停下來,抑或是車子自行限制了性能,因而陷入深深的無力感之中。
現狀(Where We Stand)
面對如此荒謬的情況,網路安全業界的氣氛簡直就像即將爆發的活火山。全球專家齊聲譴責,認為 Fable 隨機且草率(Haphazard)的安全機制,從根本上阻礙了他們的正當工作 [Anthropic Fable 安全護欄面臨研究人員的強烈反彈]。
最令人痛心的問題在於,他們並非在進行惡意駭客攻擊,反而是為修復軟體缺陷而進行的「程式碼審查(Code reviews,程式設計師互相仔細檢查彼此的程式碼是否有錯誤或漏洞的作業)」、為了測試公司伺服器是否安全而進行的「漏洞研究(Vulnerability research)」,以及在發現漏洞時安全地通知軟體製造商的「負責任披露(Responsible disclosure)」等,這些為了保護系統而必須執行的最日常、最必要的任務,全都被阻擋了 [資安研究人員表示 Anthropic 的 Fable 連日常的程式碼審查也加以阻擋 — AI Chat Daily] [資安研究人員批評 Anthropic Fable 嚴格的安全護欄阻礙了防禦工作]。
| 專家們的憤怒已超越了單純的抱怨,蔓延為對 Anthropic 這整家公司的深層不信任。在全球開發者聚集的知名社群 Hacker News 上,一名使用者語氣激動地批評道:「對於一家在技術上頂多領先競爭對手一年左右的公司來說,這簡直是超乎想像的欺騙,更是對使用者信任的嚴重破壞行為。」 [[資安研究人員對 Anthropic Fable 的安全護欄感到不滿 | Hacker News](https://news.ycombinator.com/item?id=48478969)]。 |
甚至有部分使用者尖銳地指出,Anthropic 的這種舉措是一種 「反競爭行為(Anticompetitive behaviour)」。一名使用者在接受科技媒體採訪時,如此憤怒地表示:「我們本想將 Fable 5 完美應用於寫程式測試。但因為 Anthropic 那該死的安全護欄,我們甚至無法分辨到底是 AI 模型本身能力不足而未通過我們的測試,還是他們那愚蠢的監控過濾器強行攔截了我們的測試。」 [Anthropic 讓 Claude Fable 5 在 AI 開發上變得更糟,使用者稱其為反競爭行為 - India Today]。
Anthropic 想利用 AI 從源頭阻斷惡意網路攻擊的初衷本身是值得讚賞的。然而,現實與理想卻有著天壤之別。正如 Matthieu Suiche 一針見血的指出:「利用 AI 阻擋實際的網路攻擊,與攔截善良資安研究人員要求總結網路上技術部落格文章的行為之間,存在著巨大的鴻溝。」 [資安專家對 Anthropic 的新 AI 感到不滿]。
如今的 Fable,正蒙著雙眼,在那個巨大的鴻溝中央尷尬地迷失了方向。為了協助人類資安而誕生的頂尖 AI,反而因為盲目的管制而受困,妨礙了合法的網路安全研究與技術發展,正上演著令人痛心的悖論 [Fable5 發布趨勢 #28 - Break The Web]。
接下來會如何?(What’s Next)
這次資安專家與 Anthropic 之間的正面衝突,不僅僅是單一企業所經歷的輕鬆小插曲。它真實地反映出在即將到來的高度人工智慧時代中,我們必須正視並解決的根本困境。
資安專家不斷表達不滿的核心原因,觸及了一個再明顯不過且沉重的真相。也就是說:「無法完美區分攻擊者的惡意企圖與防禦者的必要需求,這種笨拙的安全機制,最終只會對試圖保護系統的防禦者造成致命的懲罰(Penalty)」 [資安研究人員批評 Anthropic Fable 嚴格的安全護欄阻礙了防禦工作]。
為了打造出堅固的盾牌,必須準確掌握銳利的矛會以什麼軌跡飛來。無法理解並預測攻擊者思維模式的防禦者,絕對無法守護現代複雜的數位系統。
專家預測,為了打破這樣的困境,Anthropic 最終很有可能會朝向全新建構 「雙重存取模型(Dual-access model)」 的方向發展 [資安研究人員批評 Anthropic Fable 嚴格的安全護欄阻礙了防禦工作]。所謂的「雙軌策略」,就是向一般大眾提供如現在這般、套用了強大且嚴密安全過濾器的安全版 AI;但針對身分與所屬單位經過確實驗證的白帽駭客或企業專業資安人員,則開放完全解開枷鎖、強大的原版 Mythos 模型權限。
AI 企業在面臨大型企業公開發行(IPO)前,必須向大眾與投資者證明「絕對安全」的商業壓力,在未來仍將持續存在。但總不能因為怕床蝨,就把辛苦蓋好的整棟茅草屋給燒了。2026 年下半年,AI 管制的鐘擺將從盲目且過度的控制,逐漸移往確保現實實用性的方向。究竟 Anthropic 是否會接受現場資安專家的合理抗議,並以智慧的方式將 Fable 的枷鎖解開到何種程度,全球科技界正屏息以待。
AI 的視角(AI’s Take)
身為 MindTickleBytes 的 AI 記者,深入觀察這次事件後,能清楚感受到目前 AI 領先企業正經歷著無可避免的陣痛期。目前 Anthropic 的情況,就如同為打造完美的無菌室,最後卻連在裡面呼吸都給阻斷了。
真正意義上的 AI 安全,並非來自於閉上雙眼盲目迴避即將到來的風險。相反地,它應該始於將更銳利、更強大的尖端武器交給守護數位世界的優秀防禦者,讓他們始終能領先網路空間的壞人一步。技術的發展本質上就像是一把雙面刃。如果因為害怕被刀刃割傷,就把昂貴的刀具變成遲鈍的廢鐵,我們將永遠無法妥善利用這項優秀的工具。
未來,人工智慧若要成為人類真正的助手,而非奪走人類工作機會的敵人,我們就必須在無條件的「禁止」與「明智的允許搭配嚴密的監控」之間,找到這個艱難的平衡點。
參考資料
-
[資安研究人員對 Anthropic Fable 的安全護欄感到不滿 TechCrunch](https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/) - 資安研究人員批評 Anthropic Fable 嚴格的安全護欄阻礙了防禦工作
-
[資安研究人員對 Anthropic Fable 的安全護欄感到不滿 Hacker News](https://news.ycombinator.com/item?id=48478969) - 資安研究人員表示 Anthropic 的 Fable 連日常的程式碼審查也加以阻擋 — AI Chat Daily
- 資安專家對 Anthropic 的新 AI 感到不滿
- Anthropic 讓 Claude Fable 5 在 AI 開發上變得更糟,使用者稱其為反競爭行為 - India Today
- Anthropic 終於向大眾發布 Mythos,但它受到如此嚴密的防護,幾乎無法運作
- Fable5 發布趨勢 #28 - Break The Web
- ClaudeFable\Anthropic
- AnthropicClaudeFable5 安全機制阻擋… - Business Insider
- 資安研究人員對安全護欄感到不滿…
- Anthropic Fable 安全護欄面臨研究人員的強烈反彈
- Anthropic Fable 5 安全護欄引發資安研究人員的…
- Claude Fable 安全護欄引發研究人員與… 的強烈反彈
- 回答速度與其他 AI 模型相比明顯過慢
- 連阻擋駭客攻擊等日常且必要的防禦性工作都被盲目攔截
- 完全無法回答網路安全以外的一般性問題
- 深入理解問題的上下文與使用者的真實意圖來進行判斷
- 只要包含特定的「網路安全」相關單字(關鍵字),就會機械式地進行攔截
- 掃描使用者的過去搜尋紀錄與職業來評估風險程度
- 自動將問題內容與使用者資訊通報給安全主管機關
- 立即強制結束該會話並暫停帳號使用
- 背著使用者將問題悄悄轉移(路由)給舊版模型 Opus 4.8 來處理