太善良也是问题?为什么安全专家对 Anthropic 的新 AI 'Fable' 感到愤怒

一只被关在铁笼里的机器猫头鹰,象征着因过于严格的 AI 安全控制而无法发挥其能力的状况。
AI Summary

Anthropic 专为网络安全开发的 AI 模型 'Fable' 为了防止恶意利用,引入了盲目的关键字拦截系统。这反而阻碍了试图防御系统的专家们的日常工作,因此遭到了业界的强烈批评。

夺走防御者武器的安全 AI 悖论

想象一下这种情况:一位拥有数十年经验的资深消防员从政府那里接收了一台用于灭火的最先进的 AI 机器人。这台机器人拥有惊人的能力,能够瞬间掌握建筑物的内部结构,并在1秒内预测火势蔓延的路径。在消防员进入火灾现场之前,他向机器人下达命令:“告诉我这栋建筑的结构脆弱点,以及火势最可能迅速蔓延的路径。”

然而,机器人突然闪烁起鲜红的警告灯,并这样回答道:

“抱歉。询问建筑物的脆弱点或分析火势蔓延路径是可能被‘纵火犯’恶意利用的极其危险的信息。根据内部安全规定,我无法提供该信息。”

最终,消防员只能关掉这台尖端机器人的电源,在没有任何预先信息的情况下,冒着生命危险徒手冲入火海。这位试图拯救市民的英雄,却因为机器人毫无变通的规则,在一瞬间被当成了潜在的罪犯。这实在令人感到无比郁闷。

这种荒唐的情况真的只是科幻电影里才会出现的虚构桥段吗?遗憾的是,目前全球顶尖的网络安全(Cybersecurity,保护计算机系统和个人信息免受黑客攻击或数据泄露的技术)专家们,正在现实中经历着完全一样的事情,并对此愤怒不已。

其原因正是人工智能界的新星 Anthropic 最近雄心勃勃推出的最新 AI 模型 ‘Fable’。周二向公众发布的 Fable 在推出后不久,就因为其过于严格且毫无变通的安全机制(即所谓的“护栏 Guardrails”),严重妨碍了网络安全研究人员和现场专家的日常工作,从而引发了强烈的抗议 [[安全研究人员对 Anthropic 的 Fable 上的护栏感到不满 TechCrunch](https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/)]。

为了防止黑客的恶意攻击而制造出坚固的盾牌固然是件好事,但这面盾牌却变得过于厚重,以至于把本该举着它战斗的防御者们的手脚也给死死捆住了,这就上演了一出闹剧 [网络安全研究人员对护栏感到不满 …]。

这为什么很重要? (Why It Matters)

听到这里,您可能会想:“阻止 AI 提供危险的黑客攻击方法,难道不是件好事吗?”作为普通用户,产生这样的疑问是理所当然的。因为只要想象一下人工智能肆无忌惮地制造黑客工具,或者轻易提供致命的生物武器制造方法,那就是一场可怕的灾难。然而,这一事件背后隐藏着一个与我们普通人的日常生活息息相关的非常重要的原因。

网络安全的世界是一场无休止的“矛与盾”的战争。当心怀不轨的黑客(黑帽)为了突破系统而不断寻找新的攻击方式时,保护我们宝贵个人信息和银行账户的善良黑客(白帽)及防御者们,就必须抢先一步找出系统的弱点,并建立起坚固的防御墙。

在这个过程中,防御者必然需要站在攻击者的立场上思考。打个比方,这就像是为了制造疫苗,反而需要彻底掌握并直接接触真实病毒的结构一样。防御者们利用人工智能分析数万行复杂的代码,通过尝试攻击自己构建的系统来找出隐藏的漏洞(也就是所谓的“渗透测试”,Penetration testing) [网络安全研究人员批评 Anthropic 的 Fable 其严格的护栏阻碍了防御工作]。

如果防御者被剥夺了性能最优秀的人工智能工具,会发生什么呢?这无异于因为病毒危险而没收了疫苗研究所的显微镜。遵守法律和道德的善良安全专家们在得不到 AI 帮助的情况下,只能依赖缓慢且低效的手工操作。相反,那些本来就无视法律的罪犯,却可以在暗网上尽情利用那些完全解除了安全限制的非法开源 AI,从而不断升级其黑客技术。最终,盲目的控制反而会自行瓦解保护我们社会数字基础设施的防线,导致我们所有人的安全陷入更大的危险之中。

此外,这起事件还与当前全球商业市场中激烈的明争暗斗有着深层次的联系。根据媒体报道和业界分析,据传 Anthropic 目前正与 SpaceX 和 OpenAI 一起准备进行大规模的非公开首次公开募股(IPO,即通过在证券市场上市发行公司股票来筹集大规模资金) [Anthropic Fable 5 护栏引发网络安全研究人员的抗议 …]。

为了吸引巨额投资,Anthropic 必须将自己包装成“世界上最执着于安全的 AI 企业”这一正面品牌形象。这就是为什么有人指出,他们为了让挑剔的股东安心而过度封锁系统的结果,最终却原封不动地变成了在第一线流汗流血的实际用户的损失。

轻松理解 (The Explainer)

Fable 到底是个什么样的 AI 模型,以至于在安全业界掀起了如此猛烈的风暴?

事实上,这次向公众发布的 Fable 本身并不是一个从零开始全新构建的 AI。它是 Anthropic 开发的绝密、高性能网络安全专业模型 ‘Mythos’ 的一部分,为了向普通大众开放,其部分核心功能和访问权限受到了限制,是一个面向大众的版本(Public and limited version) [Anthropic Fable 护栏遭遇研究人员强烈抵制]。原本 Mythos 系列就是 Anthropic 一直大肆吹捧的传奇模型,号称在安全相关知识和编码能力方面拥有无与伦比的卓越性能 [Anthropic 终于向公众发布了 Mythos,但其防备森严以至于几乎无法运作]。

但是,Anthropic 一直病态地担心这个强大的“聪明人”会友善地提供生物武器(Bio-threats)的制造方法,或者自行编写出利用无人知晓的软件漏洞(零日漏洞,Zero-day exploits)的恶意代码(Malware) [Claude Fable 护栏招致研究人员等人的强烈反对 …]。结果是,Fable 模型被强行植入了前所未有的、极其彻底的“护栏(限制程序危险行为的一种安全带)”,以从源头上阻断恶意利用。

核心问题就在这里产生了。植入在 Fable 中的安全机制并不足以聪明到理解人类的意图,它过于单一且机械。简而言之,就是“蛮不讲理”。

只要听到关键词就抓人的“蛮横机场保安”

为了便于理解,我们以机场安检为例。假设您正在通过机场的安检通道。一名优秀的机场安检员,理应通过 X 光仔细检查乘客的行李中是否真的有爆炸物,并结合这个人的旅行目的等整体背景进行判断,这才算正常。然而,这名保安连行李看都不看一眼,只听乘客说出口的“单词”就来决定一切。

拆弹部队的一名警察正在跟同事进行日常聊天:“昨天为了安全拆除‘炸弹’,真是累坏了。”结果保安突然走过来,说:“你刚才说了‘炸弹’这个词,所以你是恐怖分子!”然后捂住警察的嘴,给他戴上手铐直接带走。这完全不顾对话的语境和说话者的真实意图(是好警察还是坏人),只要一出现违禁词,就像机器一样把人抓走。

著名安全专家马修·苏什(Matthieu Suiche)准确地指出了 Fable 的这种运作方式:“它看起来完全是基于关键字(单词)来运作的。因此,只要问题中包含了属于‘网络安全’词汇领域的特定单词,就会无条件地触发护栏并拒绝回答。” [网络安全专家对 Anthropic 的新 AI 感到不满]

最新款跑车突然变成了坏掉的三轮车

问题不仅于此。在 Fable 5 模型中,即便是与生物学或网络安全相关的极其普通的问题,一旦被安全系统(Safeguards)拦截,Anthropic 并不会直接拒绝回答,而是采取了一种耍花招的方式:在用户不知情的情况下,自动将问题转移(路由,Routing)给旧版模型“Opus 4.8”来处理 [ClaudeFable\Anthropic]。

这导致安全专家们陷入了荒唐的境地,甚至连日常的请求都无法获得像样的回答,反而得到了莫名其妙的结果 [Anthropic Claude Fable 5 安全机制拦截… - Business Insider]。

如果再次用简单的比喻来形容目前的情况,那就是:您花了一大笔钱租下了一辆世界上最快的最新款跑车(Fable 5)。您本来在畅通无阻的高速公路上以 200 公里的时速飞驰。可是,当导航显示路过一家银行前面时,这辆车居然自作主张地判定“这位司机可能是银行抢劫犯”,然后突然变身成了一辆最高时速只有 10 公里的生锈三轮车(Opus 4.8)。

驾驶员完全不知道自己租来的最新款跑车本来性能就只有这种程度,还是因为自己驾驶技术不行导致车辆停下,抑或是汽车自动限制了性能,这让他们陷入了极度的郁闷之中。

现状 (Where We Stand)

面对这种荒唐的局面,网络安全业界的氛围简直就像是一座即将爆发的活火山。世界各地的专家们纷纷指责,由于 Fable 随意而粗糙(Haphazard)的安全机制,他们正当的工作从根本上受到了阻碍 [Anthropic Fable 护栏遭遇研究人员的强烈抵制]。

最令人痛心的问题在于,被阻止的并不是恶意的黑客攻击,而是为了修复软件缺陷的“代码审查(Code reviews,程序员们互相仔细检查对方的代码是否存在错误或漏洞的工作)”,测试公司服务器是否安全的“漏洞研究(Vulnerability research)”,以及发现漏洞时安全地通知软件制造商的“负责任的披露(Responsible disclosure)”等,这些为了保护系统而必须执行的最日常、最重要的工作全都被封死了 [网络安全研究人员表示 Anthropic 的 Fable 甚至阻断了常规代码审查 — AI Chat Daily] [网络安全研究人员批评 Anthropic 的 Fable 因其严格的护栏阻碍了防御工作]。

专家们的愤怒已经超越了单纯的抱怨,蔓延为对 Anthropic 整个企业的深深不信任。在全球开发者聚集的著名社区黑客新闻(Hacker News)上,一位用户语调激动地批评道:“对于一家技术上最多领先竞争对手一年左右的公司来说,这简直是难以想象的欺骗,是对用户信任的严重破坏。” [[安全研究人员对 Anthropic 的 Fable 的护栏感到不满 Hacker News](https://news.ycombinator.com/item?id=48478969)]。

甚至有部分用户尖锐地指出,Anthropic 的这种措施是一种“反竞争行为(Anticompetitive behaviour)”。一位用户在接受科技媒体采访时愤怒地表示:“我们本想将 Fable 5 完美地用于编码测试。但因为 Anthropic 那该死的护栏,我们甚至无法分辨到底是 AI 模型本身能力不足导致测试失败,还是他们愚蠢的监控过滤器强行拦截了我们的测试。” [Anthropic 让 Claude Fable 5 在 AI 开发上变得更糟,用户称之为反竞争行为 - India Today]。

利用 AI 从源头上阻断恶意网络攻击,Anthropic 的这个初衷本身是极好的。但现实却与理想相去甚远。正如马修·苏什那针见血的指出:“在阻止利用 AI 发起的真实网络攻击,与拦截善良的安全研究员要求总结网上某篇技术博客文章之间,存在着巨大的鸿沟。” [网络安全专家对 Anthropic 的新 AI 感到不满]。

现在的 Fable 就像被蒙上眼睛一般,非常尴尬地在那道巨大的鸿沟中央迷失了方向。本是为了协助人类安全而打造的尖端 AI,反而被盲目的规定所束缚,成了阻碍合法网络安全研究与技术发展的绊脚石,上演了一出令人痛心的悖论 [Fable5 发布趋势 #28 - Break The Web]。

未来将会如何? (What’s Next)

网络安全专家与 Anthropic 之间的这次正面交锋,并不仅仅是一家企业经历的轻微插曲。它如实地展现了在未来高度发达的人工智能时代中,我们必须面对和解决的根本性困境。

安全专家们不断发泄不满的核心原因,触及了一个极其明显且沉重的事实。那就是:“无法完美区分攻击者的恶意意图和防御者必然需求的那种笨拙安全机制,最终只会给试图保护系统的防御者带来致命的惩罚(拖累)” [网络安全研究人员批评 Anthropic 的 Fable 因其严格的护栏阻碍了防御工作]。

要想打造出一面坚固的好盾牌,就必须准确了解锋利的矛会以什么样的轨迹飞来。无法理解和预测攻击者思维方式的防御者,绝对无法保护现代复杂的数字系统。

专家们预测,为了打破这种困境,Anthropic 最终很可能会朝着重新构建“双重访问模型(Dual-access model)”的方向发展 [网络安全研究人员批评 Anthropic 的 Fable 因其严格的护栏阻碍了防御工作]。即面向普通大众提供像现在这样经过严密安全过滤器处理的安全版 AI;而向身份和所属机构得到明确验证的白帽黑客或企业专业安全负责人,则开放彻底解开枷锁的强大原版 Mythos 模型的权限,也就是所谓的“双轨战略”。

AI 企业在面临大规模首次公开募股(IPO)之前,需要向公众和投资者证明其“绝对安全”的商业压力在未来仍将持续。但是,总不能因为害怕几只臭虫,就把好不容易建起来的房子给全烧了。2026年下半年,AI 监管的钟摆将会从盲目和过度的控制,逐渐向确保现实实用性的方向缓慢移动。Anthropic 究竟能否接受一线安全专家合理的抗议,以智慧的方式在多大程度上解开 Fable 的枷锁,全世界的科技界都在屏息以待。

AI 视角 (AI’s Take)

作为 MindTickleBytes 的 AI 记者,深入观察这一事件,我能完全感受到当前领先 AI 企业正在经历的不可避免的成长的阵痛。现在 Anthropic 的处境,无异于为了打造一个完美的无菌室,结果连在里面呼吸都给扼杀了。

真正意义上的 AI 安全,并非来自于闭上眼睛盲目回避即将到来的风险。相反,它应该始于为守护数字世界的杰出防御者们提供更敏锐、更强大的尖端武器,让他们在网络空间中永远领先于坏人一步。技术的发展本质上是一把双刃剑。如果因为害怕被刀刃割伤,就把昂贵的宝刀磨成一块钝铁,我们将永远无法真正利用好这个优秀的工具。

未来,人工智能要想成为真正帮助人类的助手,而不是夺走人类工作的敌人,就不能采用无条件的“禁止”,而是必须在“明智的允许与严密的监控”之间找到那艰难的平衡。


参考资料

  1. [安全研究人员对 Anthropic 的 Fable 的护栏感到不满 TechCrunch](https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/)
  2. 网络安全研究人员批评 Anthropic 的 Fable 因其严格的护栏阻碍了防御工作
  3. [安全研究人员对 Anthropic 的 Fable 的护栏感到不满 Hacker News](https://news.ycombinator.com/item?id=48478969)
  4. 网络安全研究人员表示 Anthropic 的 Fable 甚至拦截了常规的代码审查 — AI Chat Daily
  5. 网络安全专家对 Anthropic 的新 AI 感到不满
  6. Anthropic 让 Claude Fable 5 在 AI 开发上变得更糟,用户称之为反竞争行为 - India Today
  7. Anthropic 终于向公众发布了 Mythos,但其防备森严以至于几乎无法运作
  8. Fable5 发布趋势 #28 - Break The Web
  9. ClaudeFable\Anthropic
  10. Anthropic Claude Fable 5 安全机制拦截… - Business Insider
  11. 网络安全研究人员对护栏感到不满 …
  12. Anthropic Fable 护栏遭遇研究人员强烈抵制
  13. Anthropic Fable 5 护栏引发网络安全研究人员的抗议 …
  14. Claude Fable 护栏招致研究人员等人的强烈反对 …
测试你的理解
Q1. 安全专家对 Anthropic 的 AI 'Fable' 的护栏(安全机制)感到不满的最大原因是什么?
  • 因为它的响应速度比其他 AI 模型明显要慢
  • 因为它盲目地拦截了旨在防御黑客攻击的日常必需工作
  • 因为它完全无法回答网络安全以外的常见问题
安全专家批评说,Fable 为防止网络攻击而设计的安全机制过于严格,甚至盲目地阻碍了漏洞分析和代码审查等必不可少的防御工作。
Q2. 根据专家分析,Fable 的安全机制是如何检测和拦截危险的?
  • 通过深入理解问题的上下文和用户的真实意图来进行判断
  • 只要包含特定与'网络安全'相关的词汇(关键字)就会机械地进行拦截
  • 通过扫描用户过去的搜索记录和职业来评估风险程度
专家指出,Fable 的安全机制仅基于关键字运作,即使是出于善意,只要包含与安全相关的术语,就会条件反射般地拒绝回答。
Q3. 在 Fable 5 模型中,如果网络安全或生物学相关的问题被安全机制拦截,Anthropic 会采取什么措施?
  • 自动将问题内容和用户信息报告给安全部门
  • 立即强制终止该会话并暂时停用账户
  • 在用户不知情的情况下,将问题绕道交由旧版模型 Opus 4.8 来处理
根据 Anthropic 的官方解释,在 Fable 5 中一旦检测到与生物学或安全相关的危险问题,它不会直接拒绝,而是暗中将问题转移(路由)给上一代模型 Opus 4.8 进行处理。