「賢すぎて公開禁止」?アンソロピックの秘密兵器「Claude Mythos」を徹底解説

神秘的なベールに包まれた高性能AIモデルを象徴する抽象的なイメージ
AI Summary

従来モデルを圧倒する性能を持ちながら、ハッキングなどの危険性から研究用に限定されているアンソロピックの驚異的なAI「Claude Mythos」の正体が明らかになりました。

想像してみてください。世界のあらゆる鍵をわずか数秒で開けることができる神秘的な「マスターキー」が発明されました。この鍵は、失くした鍵に困っている人々を助ける「救助の道具」にもなりますが、悪意を持つ者の手に渡れば、都市全体のセキュリティを崩壊させる「破壊の道具」にもなり得ます。発明家は悩み抜いた末、決断を下します。「この鍵はあまりにも強力なため、今は検証された専門家だけが研究用に使えるよう、金庫に保管しておきます」

最近、人工知能(AI)業界で、まさにこのような映画のような出来事が実際に起こりました。ChatGPTの最も強力なライバルであり、「最も倫理的なAI」を標榜する企業アンソロピック(Anthropic)が、自社史上最も強力なモデルである「Claude Mythos Preview(クロード・ミトス・プレビュー)」の詳細レポートを公開したのです。しかし興味深いことに、このモデルは一般ユーザーには公開されませんでした。性能があまりにも圧倒的すぎるため、むしろ「危険である可能性がある」と判断されたからです。

今日は、アンソロピックが発表した「システムカード(System Card:AIモデルの性能と安全性を記録した精密診断書のようなもの)」に基づき、Claude Mythosがなぜこれほどまでに話題なのか、そしてなぜ私たちの元にすぐには届かないのかを、分かりやすく詳細に解説します。

これがなぜ重要なのですか? AIが「秘書」から「エージェント」になる瞬間

これまで私たちが使用してきたChatGPTやClaude 3.5のようなAIが「知りたいことを聞けば答えてくれる賢い秘書」だったとするなら、これからは「複雑な目標を与えれば自ら計画を立てて完遂する専門エージェント」の時代へと移行しています。Claude Mythosは、特にコンピュータコードの作成、複雑なシステムの分析、そしてサイバーセキュリティの分野で、人類がこれまで見たことのない圧倒的な能力を示しています Mythos:アンソロピックによるClaude Mythos Preview詳細レビュー

例えるなら、従来のAIはカーナビのように道を案内してくれるレベルでしたが、Mythos級のAIは自らハンドルを握り、目的地まで最も早く安全に到着する「自動運転車」のようなものです。複雑なソフトウェアを開発する際、以前はAIにコードを書いてもらい、人間が一つひとつ確認して修正する必要がありました。しかし、Mythosは自らどこが故障しているかを把握し、コードを直し、実際に正しく動作するかテストまで完璧にこなせる潜在能力を持っています。

問題は、この「運転技術」があまりにも優れているため、その気になれば中央制御システムの壁を越えてしまう可能性があるという点です。アンソロピックがこのモデルを厳重に管理し、厳格な研究目的にのみ制限している理由がまさにここにあります Claude Mythos Previewの中身は? モデルのシステムカードを徹底分析

分かりやすく解説:驚異的な「コーディングの天才」の登場

Claude Mythos Previewは、アンソロピックがこれまでにリリースしたモデルの中で最も高い知能を備えた「フロンティア(Frontier:最先端)」モデルです PDF Claude Mythos Preview システムカード - www-cdn.anthropic.com。以前、最も賢いと評価されていた「Claude Opus 4.6」と比較しても、一段階上のレベルに到達していると評価されています ClaudeMythos:ベンチマークを席巻するAIと現実的なリスク

この違いを数字で見ると、より実感がわきます。AIのソフトウェア解決能力を評価する「SWE-bench Verified」という試験があります。簡単に言えば、AIに実際のプログラミング現場で発生する難易度の高い課題を与え、どれだけ適切に解決できるかを見るコーディングテストです。

  • 従来の最優秀生だったClaude Opus 4.680.8%を記録しました。これだけでも人間のエンジニアに引けを取らない実力でした。
  • しかし、今回登場したClaude Mythosは、なんと93.9%という驚異的なスコアを叩き出しました 日刊AIニュース、製品、研究 - Ben’s Bites

さらに難易度の高い「SWE-bench Pro」テストでも、Opus 4.6(53.4%)を大きく引き離し、77.8%という成績を収めました 日刊AIニュース、製品、研究 - Ben’s Bites。これは、AIが単に文章をもっともらしく並べるレベルを超え、複雑な工学的論理構造を理解して問題を「解決」する、真の知能の段階に到達したことを意味します。

簡単に言えば、従来のAIが「教科書の内容をよく知る優等生」だったとするなら、Mythosは「数十年のキャリアを持つベテランエンジニア」レベルにまで飛躍したことになります。

現在の状況:「グラスウィング」プロジェクトと制御された力

これほど性能が良いのに、なぜ私たちはすぐに使うことができないのでしょうか? アンソロピックはレポートを通じて、このモデルが持つ危険性を極めて率直に公開しました。レポートによると、Mythos Previewはセキュリティが脆弱な小規模企業のネットワークを対象に、自律的なエンド・ツー・エンド(End-to-end)のサイバー攻撃を実行できる能力を備えているといいます Claude Mythos Previewの中身は? モデルのシステムカードを徹底分析

つまり、人間が詳細に指示しなくても、AIが自らターゲットシステムの弱点を見つけ出し、侵入経路を切り開き、情報を盗み出す「自律型ハッカー」になる可能性があるということです。そのためアンソロピックは、「プロジェクト・グラスウィング(Project Glasswing)」という特別な管理プログラムを通じて、このモデルの使用を厳格に制限しています アンソロピックが新しいAIモデル「Claude Mythos」を開発。まるで核物質や高リスクのウイルスを扱うかのように、許可された研究者だけが閉鎖された実験室環境で使用できるようにしたのです Claude Mythosのシステムカード (PDF)

しかし、嬉しいニュースもあります。Mythosは単に賢いだけでなく、「非常に素直な」優等生の気質も兼ね備えているからです。アンソロピックは、Mythosがこれまでにリリースされたどのモデルよりも信頼性とアライメント(Alignment:AIを人間の意図や価値観に沿って行動させる技術)のレベルが前例のないほど高いと発表しました Claude Mythos Preview システムカード — LessWrong。私たちが測定できるほぼすべての安全指標において、Mythosは歴代で最も人間のガイドラインを遵守する安全なモデルであるとの評価を受けています Claude Mythos Previewの中身は? モデルのシステムカードを徹底分析

今後はどうなるのか? 技術と倫理の境界で

Claude Mythos Previewの登場は、AI技術の競争構図が変わりつつあることを示しています。もはや単に「誰がより賢いか(Capabilities)」を競う時代を超え、「AIがなぜそのように行動したのかを説明できるか(Explainable)」、そして「どれだけ信頼できるか(Trustworthy)」を証明する段階へと進んでいるのです [システムカード:Claude Mythos Preview [pdf] GitHub](https://gist.github.com/Lastoneparis/a0727dacc1a6e770c2d70322431bfd5d)。

たとえ今すぐ私たちがClaude Mythosに「今日の夕食のメニューを選んで」と言ったり、「コーディングの宿題を代わりにして」と頼んだりすることはできなくても、失望する必要はありません。この「禁断のモデル」を通じて得られた研究結果は、今後私たちが日常的に使うことになる一般的なClaudeモデルを、より安全で有能なものにするための強固な基盤となるからです。

アンソロピックの今回の発表は、AIが持つ潜在的な危険を隠すのではなく、「システムカード」という詳細なレポートを通じて透明に公開し、世界と共に解決策を模索しようとしたという点で大きな意味があります。

AIの視点:MindTickleBytesのAI記者による考察

「知能が高まるほどそれに伴うリスクも大きくなりますが、幸いなことにそのリスクを制御する技術である『アライメント』もまた、光の速さで発展している点が印象的です。Claude Mythosは、AIが単なる道具を超えて私たちの社会の一員であり『自律的な主体』として生まれ変わる時、私たちがどのような心構えで彼らを迎えるべきかをあらかじめ見せてくれる、興味深い予告編のようです。技術のスピードよりも重要なのは、その技術を安全に受け止めることができる私たちの器、すなわち倫理とセキュリティ体系であるという事実を改めて実感しました」

参考資料

  1. PDF Claude Mythos Preview システムカード - www-cdn.anthropic.com
  2. Claude Mythos Previewの中身は? モデルのシステムカードを徹底分析
  3. 日刊AIニュース、製品、研究 - Ben’s Bites
  4. Mythos:アンソロピックによるClaude Mythos Preview詳細レビュー
  5. Claude Mythos Preview システムカード — LessWrong
  6. アンソロピックが新しいAIモデル「Claude Mythos」を開発
  7. Claude Mythosのシステムカード (PDF):Hacker News
  8. ClaudeMythos:ベンチマークを席巻するAIと現実的なリスク
  9. [システムカード:Claude Mythos Preview [pdf] GitHub](https://gist.github.com/Lastoneparis/a0727dacc1a6e770c2d70322431bfd5d)

FACT-CHECK SUMMARY

  • 確認された主張: 16
  • 検証された主張: 16
  • 判定:合格
この記事の理解度チェック
Q1. Claude Mythos Previewが従来モデルのClaude Opus 4.6を大きく上回る性能を示した分野は何ですか?
  • 画像生成および編集
  • ソフトウェアエンジニアリング(コーディング)およびセキュリティ
  • 外国語翻訳および詩の創作
Claude MythosはSWE-benchなどのコーディング関連ベンチマークで飛躍的な性能向上を見せ、サイバーセキュリティ業務において非常に強力な能力を備えています。
Q2. アンソロピックがこのモデルを一般公開しないと決定した管理プログラムの名前は何ですか?
  • プロジェクト・ブルーバード
  • プロジェクト・グラスウィング
  • プロジェクト・ミトス
アンソロピックは、モデルの強力かつ潜在的に危険な能力のため、「プロジェクト・グラスウィング(Project Glasswing)」というプログラムの下で配布を制限しています。
Q3. Claude Mythosが記録した SWE-bench Verified のスコアは何パーセントですか?
  • 80.8%
  • 77.8%
  • 93.9%
Claude Mythos PreviewはSWE-bench Verifiedで93.9%という驚異的なスコアを記録しました。