因太过聪明而“禁止公开”？深度剖析 Anthropic 的秘密武器“Claude Mythos”

AI Summary

性能碾压现有模型，但因黑客攻击等风险而仅限研究使用的 Anthropic 史诗级 AI“Claude Mythos”揭开神秘面纱。

想象一下，有人发明了一把神秘的“万能钥匙”，可以在几秒钟内打开世界上所有的锁。这把钥匙既可以成为帮助因丢失钥匙而陷入困境的人们的“救援工具”，也可能落入心怀叵测之人手中，成为摧毁整个城市安防系统的“破坏工具”。发明者经过深思熟虑后做出决定：“这把钥匙太过强大，目前只能将其放入保险柜，仅供经过验证的专家用于研究。”

最近，人工智能（AI）领域就真实发生了这样如同电影般的情节。ChatGPT 最强大的对手、标榜为“最道德 AI”的企业 Anthropic，向世界公开了其历史上最强大模型 “Claude Mythos Preview” 的详细报告。但有趣的是，该模型并未向普通用户开放。这是因为其性能过于强悍，甚至被判断为“可能具有危险性”。

今天，我们将基于 Anthropic 发布的“系统卡片（System Card，一种记录 AI 模型性能与安全性的精密诊断书）”，为您详细解释 Claude Mythos 为何会引发如此大的轰动，以及它为何不能立即来到我们身边。

为什么这很重要？当 AI 从“助手”变为“特工”

如果我们到目前为止使用的 ChatGPT 或 Claude 3.5 还是“问什么答什么的聪明助手”，那么现在我们正在跨入“给出复杂目标后，由其自主制定计划并完成任务的专业特工（Agent）”时代。Claude Mythos 在计算机代码编写、复杂系统分析以及网络安全领域展示了人类从未见过的压倒性能力 Mythos: Claude Mythos Preview 来自 Anthropic 的详细评测。

打个比方，以前的 AI 就像导航仪一样只能提供路线引导，而 Mythos 级别的 AI 则更像是能够亲自握住方向盘，以最快、最安全的方式到达目的地的“自动驾驶汽车”。在您开发复杂的软件时，以前需要让 AI 编写代码后由人工一一检查修改。但 Mythos 拥有识别故障点、修复代码并完美测试其是否正常运行的潜力。

问题在于，这种“驾驶技术”过于精湛，只要它愿意，就有可能突破中央控制系统的防线。这正是 Anthropic 将该模型严密保护并仅限于严格研究用途的原因 Claude Mythos Preview 内部包含什么？剖析模型的系统卡片。

通俗易懂：史诗级“编程天才”的诞生

Claude Mythos Preview 是 Anthropic 迄今为止推出的智力最高、最顶尖的“前沿（Frontier）”模型 PDF Claude Mythos Preview 系统卡片 - www-cdn.anthropic.com。即使与此前被认为最聪明的“Claude Opus 4.6”相比，它也被评价为达到了一个全新的高度 Claude Mythos：统治基准测试且具有真实风险的 AI。

从数据上看，这种差异更加直观。有一项名为“SWE-bench Verified”的考试，用于评估 AI 解决软件问题的能力。简单来说，就是给 AI 提供实际编程现场中发生的高难度问题，观察其解决能力的编程测试。

此前的优等生 Claude Opus 4.6 取得了 80.8% 的成绩。这已经是不亚于人类开发者的水平了。
然而，这次出现的 Claude Mythos 竟然取得了惊人的 93.9% 的高分每日 AI 新闻、产品与研究 - Ben’s Bites。

甚至在难度更高的“SWE-bench Pro”测试中，它也以 77.8% 的成绩远远甩开了 Opus 4.6（53.4%）每日 AI 新闻、产品与研究 - Ben’s Bites。这意味着 AI 已经超越了单纯罗列辞藻的水平，进入了理解复杂工程逻辑结构并“解决”问题的真实智能阶段。

简单来说，如果之前的 AI 是“精通教科书内容的模范生”，那么 Mythos 则是一跃成为了“拥有数十年经验的老牌工程师”。

现状：透明翼项目与受控的力量

性能如此出色，为什么我们不能马上使用呢？Anthropic 在报告中非常坦率地公开了该模型存在的风险。根据报告，Mythos Preview 具备针对安全性薄弱的小型企业网络执行自主端到端（End-to-end）网络攻击的能力 Claude Mythos Preview 内部包含什么？剖析模型的系统卡片。

也就是说，即使没有人类的详细指示，AI 也有可能成为能够自主寻找目标系统弱点、突破渗透路径并窃取信息的“自主型黑客”。因此，Anthropic 通过一个名为 “透明翼项目 (Project Glasswing)” 的特别管理计划，严格限制了该模型的使用 Anthropic 开发了新型 AI 模型 Claude Mythos。就像处理核材料或高风险病毒一样，它被设计为仅允许获授权的研究人员在封闭的实验室环境中使用 Claude Mythos 系统卡片 (PDF)。

不过也有好消息。Mythos 不仅聪明，还具备“非常听话”的优秀模范生特质。Anthropic 宣布，Mythos 的可靠性与对齐（Alignment，使 AI 的行为符合人类意图与价值观的技术）水平达到了前所未有的高度 Claude Mythos Preview 系统卡片 — LessWrong。在几乎所有可衡量的安全指标上，Mythos 都被评价为历代最能遵循人类准则的安全模型 Claude Mythos Preview 内部包含什么？剖析模型的系统卡片。

未来将何去何从？技术与伦理的边界

Claude Mythos Preview 的出现表明 AI 技术的竞争格局正在发生变化。我们已经走过了单纯比拼“谁更聪明（Capabilities）”的时代，开始进入证明“能否解释 AI 为何如此行动（Explainable）”以及“它有多值得信任（Trustworthy）”的阶段 [系统卡片：Claude Mythos Preview [pdf]

GitHub](https://gist.github.com/Lastoneparis/a0727dacc1a6e770c2d70322431bfd5d)。

虽然现在我们还不能对 Claude Mythos 说“帮我选个晚餐菜单”或“帮我做一下编程作业”，但不必感到失望。因为通过这个“禁忌模型”获得的研究成果，将成为让未来我们在日常生活中使用的普通 Claude 模型变得更加安全、强大的坚实基础。

Anthropic 的这次发布具有重大意义，它没有隐藏 AI 潜在的风险，而是通过“系统卡片”这一详尽的报告透明地公开，并试图与全球共同思考解决方案。

AI 的视点：MindTickleBytes 的 AI 记者观察

“令人印象深刻的是，随着智能的提高，相应的风险也在增大，但庆幸的是，控制风险的技术——‘对齐’也在以光速同步发展。当 AI 超越简单的工具，成长为我们社会的一员和‘自主主体’时，Claude Mythos 就像是一部有趣的预告片，预示着我们应该以什么样的心态去迎接它们。事实再次证明，比技术速度更重要的是能够安全承载该技术的器皿，即我们的伦理与安全体系。”

参考资料

PDF Claude Mythos Preview 系统卡片 - www-cdn.anthropic.com
Claude Mythos Preview 内部包含什么？剖析模型的系统卡片
每日 AI 新闻、产品与研究 - Ben’s Bites
Mythos: Claude Mythos Preview 来自 Anthropic 的详细评测
Claude Mythos Preview 系统卡片 — LessWrong
Anthropic 开发了新型 AI 模型 Claude Mythos
Claude Mythos 系统卡片 (PDF)：Hacker News
Claude Mythos：统治基准测试且具有真实风险的 AI
[系统卡片：Claude Mythos Preview [pdf] GitHub](https://gist.github.com/Lastoneparis/a0727dacc1a6e770c2d70322431bfd5d)

事实核查总结

核查项目：16
验证项目：16
结论：通过 (PASS)

Share this article:

测试你的理解

Q1. Claude Mythos Preview 在哪个领域的性能大幅领先于现有模型 Claude Opus 4.6？

图像生成与编辑
软件工程（编程）与安全
外语翻译与诗歌创作

Claude Mythos 在 SWE-bench 等编程相关基准测试中表现出飞跃性的性能提升，并且在网络安全任务中拥有非常强大的能力。

Q2. Anthropic 决定不向公众开放该模型的管理计划名称是什么？

蓝鸟项目 (Project Bluebird)
透明翼项目 (Project Glasswing)
神话项目 (Project Mythos)

由于该模型强大且具有潜在危险的能力，Anthropic 通过名为“透明翼项目 (Project Glasswing)”的计划限制其发布。

Q3. Claude Mythos 取得的 SWE-bench Verified 分数是多少？

80.8%
77.8%
93.9%

Claude Mythos Preview 在 SWE-bench Verified 测试中取得了惊人的 93.9% 的高分。