AI变得太聪明会发生什么?Claude Fable 5的'安全'天才

一幅插画,描绘了一个机器人在巨大的图书馆里看书,周围环绕着安全的保护罩
AI Summary

Anthropic发布了将原本仅限专家使用的高级AI技术向公众开放的'Claude Fable 5',并引入了一种独特的安全机制:在遇到危险问题时,交由旧型号代替回答。

想象一下。假设您刚刚聘请了一位“天才助手”,从极其复杂的数学问题到最新的软件编程,甚至是晦涩难懂的法律文件分析,他都能轻松搞定。这位助手智力超群,只要几秒钟,就能完美理解并总结您随意扔给他的数百页文档和复杂的图像。

然而,这位看似完美的助手却有一个非常独特且致命的弱点,或者说特点。如果您问“如何制造爆炸物?”或者“告诉我如何偷偷黑进竞争公司的安全网络”,这位天才助手会突然闭口不言。然后,他会悄悄地将站在他身后、经验丰富但有些保守且墨守成规的“老助手”推到前面,让他来代替回答您。

这不是科幻电影里的机器人故事。这是我们今天面临的最新人工智能的真实写照。这也是被认为是ChatGPT最强竞争对手的人工智能企业Anthropic向世界推出的全新人工智能——Claude Fable 5背后的故事。这个新的人工智能到底有多聪明,以及为什么它要选择这种独特的方式,让我们一步步来了解。


为什么这很重要? (Why It Matters)

最近,Anthropic向公众惊喜发布了其新的AI模型“Claude Fable 5” Anthropic’s Claude Fable 5 is a version of Mythos the public can access today。这则新闻之所以让IT行业和技术专家们如此兴奋,不仅仅是因为“发布了新版本”这一事实,更是因为该模型拥有的特殊“出身背景”。

过去,Anthropic提供给普通用户的最高级别AI被命名为“Opus”。但事实上,在Anthropic实验室的最深处,秘密存在着一个比Opus智力水平更高的传奇级别——Mythos(意为神话)

因为这项Mythos技术过于强大且影响力巨大,自2025年4月起,它仅在代号为“Project Glasswing”的项目下,秘密提供给保护国家关键基础设施的网络安全防御者或极少数专家群体 [Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever VentureBeat](https://venturebeat.com/technology/anthropic-brings-mythos-to-the-masses-with-claude-fable-5-its-most-powerful-generally-available-model-ever)。

此次发布的“Claude Fable 5”,正是首次将这种可怕的“Mythos”级别的能力进行改进,使其能够让普通大众安全使用的模型 Claude Fable 5发布及对话中模型自动切换工作原理

打个简单的比方。过去,有一个只有参加奥运会的国家级精英运动员才能使用的最先进的“体育科学训练中心(Mythos)”。而现在,这个训练中心向公众敞开了大门(Fable 5),我们这些普通市民在小区门口的健身房里也能亲自使用那些令人惊叹的训练器材了。在撰写策划案、数据分析、编程等需要动脑的“知识工作(Knowledge work)”领域,帮助人类的超级大脑终于大步迈入了我们的日常领域。


通俗易懂的解释 (The Explainer)

那么,向公众开放的Claude Fable 5具体具备哪些能力呢?

这个AI远远超出了仅仅阅读我们输入的文字并流畅作答的水平。它可以一次性接收并综合分析用户抛给它的海量文本、复杂图像以及难以处理的文件格式(File inputs) [ClaudeFable5- API Pricing & Providers OpenRouter](https://openrouter.ai/anthropic/claude-fable-5)。它擅长自行判断情况来设计复杂的软件结构,或者自主整理错综复杂的知识信息。

此外,为了方便开发者,它还配备了丰富的强大最新工具,如能够深入理解照片和图片的视觉分析功能(Vision),智能调用与用户过去对话上下文的记忆工具(Memory tool),以及在执行复杂任务时自行调节计算机资源使用量的任务预算设置功能(Task budgets) Introducing Claude Fable 5 and Claude Mythos 5 - Claude API Docs

然而,这项创新技术的真正价值不在于模型规格本身,而在于隐藏在其背后的“安全机制(Guardrails)”

Claude Fable 5被设计为:当被问及可能对人类构成巨大威胁的“高风险领域(High-risk areas)”时,例如利用网络安全漏洞或制造致命生物武器的方法,它会坚决拒绝自己作答 Anthropic’s Claude Fable 5 is a version of Mythos the public can access today

有趣的是它拒绝的方式。它并不是简单地弹出一个冷冰冰的错误信息“因规定无法回答”然后生硬地切断对话。如果系统在问题内容中检测到危险迹象,它会在后台迅速截获该问题,并将其抛给(路由,Routing)已经过严格安全验证的旧型号Opus 4.8 Claude Fable 5 & Claude Mythos 5 Full Benchmark Breakdown

打个比方。你去一家顶级的米其林三星餐厅,请一位天才厨师(Fable 5)为你做菜。这位厨师能做出从牛排到精致甜点等超乎想象的完美菜肴。但是,当你向厨师提出危险的要求,比如“给我做一条不经过解毒处理的有毒河豚”时,餐厅厨房的警报器就会响起。天才厨师会立刻退居幕后,取而代之的是一位几十年来一直坚持安全、正宗烹饪的经验丰富、保守的老厨师(Opus 4.8),由他来按照规定接待你 [Anthropic releases its first Mythos-class model Claude Fable The Verge](https://www.theverge.com/news/946725/anthropic-releases-claude-fable-5-mythos)。

由于AI的能力变得过于强大,为了防止这种能力被滥用时产生不可收拾的影响,AI自身建立了一种智能机制,为其聪明才智踩下“刹车”。


当前现状 (Where We Stand)

Claude Fable 5压倒性的实力已经通过客观数据得到了清晰的证明。根据著名AI性能评估(基准测试)网站BenchLM.ai的临时排行榜,Claude Fable 5在满分100分中获得了惊人的96分,在接受评估的全部123个人工智能模型中堂堂正正地拿下了第2名的优异成绩 [ClaudeFable5Benchmarks 2026: Scores, Rankings… BenchLM.ai](https://benchlm.ai/models/claude-fable)。可以说,在众多强大AI竞争的全球舞台上,它牢牢占据了最顶尖的位置。
有些用户可能会担心:“检测到危险就会切换到旧型号,使用过程中会不会频繁卡顿或者让人觉得不爽?”从而担心用户体验变差。但根据Anthropic细致的测试结果,用户与该AI对话的会话中,有95%完全没有借助旧型号(Opus 4.8)的帮助,而是由Fable 5独立处理完成的 [Anthropic releases its first Mythos-class model Claude Fable The Verge](https://www.theverge.com/news/946725/anthropic-releases-claude-fable-5-mythos)。也就是说,在100次日常提问中,有95次无需经过繁琐的模型切换过程,就能舒适、流畅地100%享受天才AI的能力。

目前,Claude Fable 5正通过Claude API提供,以帮助普通开发者或企业将其应用于自己的服务中 ClaudeFable\ Anthropic。此外,它也已正式登陆企业级云市场的巨头亚马逊的AI平台“Amazon Bedrock” Claude Fable 5 from Anthropic now available on Amazon Bedrock

一个特别之处在于针对企业的收费政策。对于极度反感敏感数据转移到其他国家服务器的企业,可以设置强制仅在美国境内进行数据处理的选项(US-only inference)。但是,如果选择这种安全的专用网络,按需支付的数据费用(输入和输出代币费用)将比基本价格高出1.1倍 ClaudeFable\ Anthropic。(相当于支付了约10%的安全附加费。)

不过,也有令人遗憾的地方。不管Fable 5有多么出色和强大,它终究只是将原版“Mythos”技术的威力进行温和处理后的面向大众的版本。真正原汁原味、拥有最高性能和潜力的原版“Claude Mythos 5”本身,仍然被牢牢地隐藏在严格的受控网络(trusted controls)之后,仅秘密提供给经过安全验证的极少数专家 [Anthropic launches Claude Fable 5 with trusted controls ETIH EdTech News — EdTech Innovation Hub](https://www.edtechinnovationhub.com/news/anthropic-opens-access-to-claude-fable-5-while-keeping-mythos-5-behind-trusted-controls)。

未来展望 (What’s Next)

此次Claude Fable 5的出现,给我们的社会抛出了一个非常重要且全新的话题。就在几年前,人类的烦恼还停留在“如何让人工智能变得像人类一样聪明?”。但现在时代变了。我们的问题已经彻底演变为:“对于已经超越人类、变得过于聪明的AI所拥有的强大能力,我们该如何控制并安全地在日常生活中使用?” [深度分析] Claude Fable 5与Mythos 5:因为“过于强大”而配备的安全机制…

Fable 5自行判断问题风险程度,并将难以承受或危险的话题转交给旧型号的独特“模型切换(路由)”方式,相当令人震撼。这项技术很有可能成为未来出现在我们身边的众多超大型AI必须具备的“新安全标准(Standard)”。将最具创新性、最聪明的大脑(Mythos)与虽慢但能稳稳停下的保守刹车(Opus)巧妙结合的方式。因为这是在不勉强减缓AI惊人发展速度的同时,守住人类安全底线的最现实的妥协方案。

在不久的将来,虽然表面上我们以为只是在和智能手机里的一个AI应用对话,但在看不见的屏幕背后,根据我们抛出问题的分量和风险程度,多个不同的AI模型将会像接力赛传递接力棒一样交替扮演角色,共同完成回答,我们将迎来这样一个有趣的时代。


MindTickleBytes AI记者的观点
“这是一个有趣的案例,它表明人们对于如何将这项强大的技术置于人类控制之下并安全共享的思考,已经随着技术发展的步伐变得前所未有的深刻。一辆超级跑车,无论引擎多么强大,如果没有出色的刹车作为后盾,就无法尽情驰骋。只有当名为创新的加速踏板与精密可靠的刹车相匹配时,才能安全抵达目的地——这句平凡却沉重的真理,此次Claude Fable 5正用技术的语言向我们证明。”


参考资料

  1. Anthropic’s Claude Fable 5 is a version of Mythos the public can access today
  2. [Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever VentureBeat](https://venturebeat.com/technology/anthropic-brings-mythos-to-the-masses-with-claude-fable-5-its-most-powerful-generally-available-model-ever)
  3. Claude Fable 5发布及对话中模型自动切换工作原理
  4. [ClaudeFable5- API Pricing & Providers OpenRouter](https://openrouter.ai/anthropic/claude-fable-5)
  5. Introducing Claude Fable 5 and Claude Mythos 5 - Claude API Docs
  6. Claude Fable 5 & Claude Mythos 5 Full Benchmark Breakdown
  7. [Anthropic releases its first Mythos-class model Claude Fable The Verge](https://www.theverge.com/news/946725/anthropic-releases-claude-fable-5-mythos)
  8. [ClaudeFable5Benchmarks 2026: Scores, Rankings… BenchLM.ai](https://benchlm.ai/models/claude-fable)
  9. ClaudeFable\ Anthropic
  10. Claude Fable 5 from Anthropic now available on Amazon Bedrock
  11. [Anthropic launches Claude Fable 5 with trusted controls ETIH EdTech News — EdTech Innovation Hub](https://www.edtechinnovationhub.com/news/anthropic-opens-access-to-claude-fable-5-while-keeping-mythos-5-behind-trusted-controls)
  12. [深度分析] Claude Fable 5与Mythos 5:因为“过于强大”而配备的安全机制…
测试你的理解
Q1. 当Claude Fable 5遇到关于黑客攻击或生物武器等危险问题时,它会采取什么行动?
  • 完全拒绝回答问题并切断电源
  • 自行分析问题,将其转化为安全形式后回答
  • 将问题转交给旧型号Opus 4.8代为回答
当Claude Fable 5遇到网络安全或生物学等高风险领域的问题时,它会自动将问题路由(传递)给旧型号Opus 4.8,以安全地进行处理。
Q2. Claude Fable 5属于Anthropic AI模型中的哪个等级(Class)?
  • Opus
  • Mythos
  • Haiku
Claude Fable 5是Anthropic首次向公众开放的'Mythos'级别的模型。
Q3. 关于Claude Fable 5的描述中,哪一项是不真实的?
  • 支持文本、图像和文件的输入。
  • 在基准测试中,于123个模型中排名第2。
  • 任何人现在都可以不受限制地使用原版Mythos 5模型。
虽然Claude Fable 5已经向公众开放,但其基础的更强大的'Mythos 5'仍然处于可信控制(trusted controls)之下,仅限制性地提供。