優しすぎて問題?セキュリティ専門家たちがAnthropicの新しいAI「Fable」に憤怒している理由

鉄格子の中に閉じ込められたロボットフクロウの姿で、過度に厳格なAIの安全統制によって本来の能力を発揮できない状況を象徴しています。
AI Summary

サイバーセキュリティ専用に開発されたAnthropicのAIモデル「Fable」が、悪用を防ぐために導入した盲目的なキーワード遮断システムのせいで、かえってシステムを防御しようとする専門家の必須業務まで妨げており、業界から激しい批判を受けています。

防御者の武器を奪ったセキュリティAIの逆説

一度、こんな状況を想像してみてください。数十年の経歴を持つベテラン消防士が、政府から最先端の火災鎮圧用人工知能ロボットを支給されました。このロボットは、建物の内部構造を一瞬で把握し、炎が燃え広がる経路を1秒で予測する驚くべき能力を備えています。消防士が火災現場に進入する前、ロボットに「この建物の構造的な脆弱性と、炎が最も早く燃え広がる可能性のある経路を教えてくれ」と命令します。

ところが、ロボットが突然真っ赤な警告灯を点滅させながらこう答えます。

「申し訳ありません。建物の脆弱性を尋ねたり、火災の拡散経路を分析したりすることは、『放火犯』に悪用される恐れのある非常に危険な情報であるため、内部の安全規定によりお教えすることはできません。」

結局、消防士は最先端ロボットの電源を切り、事前の情報が一切ないまま、命懸けで生身のまま炎の中に飛び込まなければなりませんでした。市民を救おうとする英雄が、ロボットの融通の利かないルールのせいで、突然潜在的な犯罪者扱いを受けたことになります。本当に歯痒い話です。

この荒唐無稽な状況は、果たしてSF映画の中にしか出てこないようなフィクションでしょうか?残念ながら、現在世界中の名だたるサイバーセキュリティ(ハッキングやデータ流出からコンピュータシステムと個人情報を保護する技術)専門家たちが、現実でまさにこれと全く同じ経験をし、怒りを爆発させています。

その原因は他でもなく、人工知能業界の期待の星であるAnthropicが最近野心的に発表した最新AIモデル「Fable」のせいです。火曜日に一般公開されたFableは、発売直後から過度に厳格で融通の利かない安全装置、いわゆる「ガードレール(Guardrails)」のせいで、サイバーセキュリティ研究者や現場の専門家たちの日常的な業務を深刻に妨害しているという激しい不満に包まれています [[AnthropicのFableにおけるガードレールにサイバーセキュリティ研究者たちは不満を抱いている TechCrunch](https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/)]。

ハッカーたちの悪意ある攻撃を防ぐために強固な盾を作ったところまでは良かったのですが、その盾があまりにも分厚く重くなりすぎたあまり、いざその盾を持って戦うべき防御者たちの手足までがんじがらめに縛り付けてしまうという茶番劇が起きているのです [サイバーセキュリティ研究者たちはガードレールに不満を抱いている…]。

なぜこれが重要なのか? (Why It Matters)

ここで、「AIが危険なハッキング方法を教えないように防ぐのは良いことではないのか?」と思われるかもしれません。一般のユーザーなら当然抱くであろう疑問です。人工知能が無分別にハッキングツールを作ってくれたり、致命的な生物兵器の製造法をあっさりと教えてくれたりするのは、想像しただけでも恐ろしい災難ですから。しかし、この事態が一般人である私たちの日常生活に直結する非常に重要な理由が隠されています。

サイバーセキュリティの世界は、終わりのない「盾と矛」の戦争です。悪意のある目的を持ったハッカー(ブラックハット)たちがシステムを突破するために絶えず新しい攻撃手法を見つけ出す時、私たちの貴重な個人情報や銀行口座を守る善意のハッカー(ホワイトハット)と防御者たちは、それより一歩先にシステムの弱点を見つけ出し、強固な防御壁を築かなければなりません。

この過程で、防御者たちは必然的に攻撃者の立場になってみる必要があります。例えるなら、ワクチンを作るためには、逆説的に実際のウイルスの構造を完璧に把握し、直接扱わなければならないのと同じ理屈です。防御者たちは人工知能を利用して数万行の複雑なコードを分析し、自ら自分が作ったシステムを攻撃してみて隠された脆弱性を見つけ出す作業(いわゆるペネトレーションテスト、Penetration testing)を遂行します [サイバーセキュリティ研究者たちが、防御業務を妨げるAnthropicのFableの厳格なガードレールを批判]。

もし防御者たちが最も優れた性能を持つ人工知能ツールを奪われることになったらどうなるでしょうか?ウイルスが危険だという理由で、ワクチン研究所の顕微鏡まで没収してしまうようなものです。法律と道徳を守る善良なセキュリティ専門家たちは、AIの助けを得られないまま、遅くて非効率な手作業に依存しなければなりません。一方、そもそも法律を嘲笑う犯罪者たちは、ダークウェブであらゆる安全規制が解除された違法なオープンソースAIを存分に活用し、ハッキング技術を高度化させるでしょう。結局のところ、盲目的な統制は、私たちの社会のデジタルインフラを守る防衛線を自ら崩し、結果的に私たち全員の安全をより大きな危険に陥れる結果を招くことになります。

さらに進んで、この事案は現在のグローバルビジネス市場における熾烈な暗闘とも深く結びついています。メディアの報道や業界の分析によると、Anthropicは現在、SpaceXやOpenAIとともに、大規模な非公開の新規株式公開(IPO、会社の株式を証券市場に上場して大規模な資金を調達すること)を準備していると報じられています [AnthropicのFable 5のガードレールがサイバーセキュリティ研究者の反発を招く…]。

莫大な投資を誘致するために、Anthropicは自らを「世界で最も安全性に執着するAI企業」という肯定的なブランドとして包装しなければなりませんでした。気難しい株主たちを安心させるために無理にカンヌキを掛けた結果が、結局のところ、現場で血と汗を流す実務ユーザーの被害としてそのまま跳ね返ってきていると指摘される理由です。

わかりやすい解説 (The Explainer)

一体「Fable」がどのようなAIモデルであるがゆえに、セキュリティ業界にこれほど激しい後遺症が吹き荒れているのでしょうか?

実は、今回一般公開されたFableは、それ自体が完全に新しくゼロから作られたAIではありません。Anthropicが開発した極秘の高性能サイバーセキュリティ専門モデルである「Mythos」の中でも、一般大衆に公開するために一部の中核機能とアクセス権限を制限した大衆向けバージョン(Public and limited version)なのです [AnthropicのFableのガードレールが研究者からの反発に直面]。もともとMythosシリーズは、セキュリティ関連の知識やコーディング能力において他を寄せ付けない驚異的な性能を誇るとAnthropicが大々的に自慢してきた伝説的なモデルです [AnthropicがついにMythosを一般公開したが、過剰な防御のせいでほとんど機能しない]。

しかしAnthropicは、この強力な秀才が生物兵器(Bio-threats)の製造法を親切に教えてくれたり、まだ誰も知らないソフトウェアの抜け穴(ゼロデイ脆弱性、Zero-day exploits)に付け込む悪意のあるコード(Malware)を勝手に書き上げたりすることを病的に懸念してきました [Claude Fableのガードレールが研究者や開発者からの反発を招く…]。その結果、Fableモデルには、悪用を元から遮断するための異例かつ徹底したレベルの「ガードレール(プログラムの危険な行動を制約する一種の安全ベルト)」が強制的に搭載されました。

まさにここで核心的な問題が発生します。Fableに埋め込まれた安全装置が、人間の意図を把握できるほど賢くなく、あまりにも一次元的で機械的だということです。簡単に言えば、「頑固で強引」なのです。

キーワードが聞こえるだけで捕まえる「強引な空港警備員」

理解を助けるために、空港の保安検査場を例に挙げてみましょう。皆さんが空港の保安検査場を通過しています。優秀な空港保安員であれば、乗客の荷物の中に本物の爆発物がないかX線で綿密に調べ、この人の旅行目的など全体的な文脈を把握するのが普通でしょう。しかし、この警備員は荷物には見向きもせず、乗客が口に出す「単語」だけを聞いてすべてを判断します。

爆発物処理班に所属する警察官が、同僚に「昨日、『爆弾』を安全に解体するのにとても苦労しました」と日常的な会話を交わしました。すると警備員が突然近づいてきて、「今『爆弾』という単語を口にしたから、お前はテロリストだ!」と言いながら警察官の口を塞ぎ、手錠をかけて連行してしまいます。会話の文脈や話し手の本当の意図(善良な警察官か悪党か)は全く考慮せず、禁止語が出ただけで機械的に捕らえているようなものです。

著名なセキュリティ専門家であるマシュー・スイチェ(Suiche)氏は、Fableの作動方式をまさにこのように皮肉りました。「これは徹底してキーワード(単語)ベースで動作しているように見えます。したがって、『サイバーセキュリティ』という語彙領域に属する特定の単語が質問に含まれるだけで、無条件にガードレールが発動し、回答を拒否してしまいます。」 [サイバーセキュリティ専門家たちはAnthropicの新しいAIに不満を抱いている]

最新のスポーツカーが突然壊れた三輪車に変身する

問題はこれで終わりではありません。Anthropicは、Fable 5モデルにおいて、生物学やサイバーセキュリティに関連するごく平凡な質問でさえ統制システム(Safeguards)に引っかかり遮断された場合、回答を最初から露骨に拒否する代わりに、ユーザーに知られずに旧型モデルである「Opus 4.8」へ質問を自動的に渡してしまう(ルーティング、Routing)という小細工を採用しました [ClaudeFable\Anthropic]。

これにより、セキュリティ専門家たちは日常的な要求すらまともな回答を得られず、見当違いの結果に直面するという呆れた状況に立たされました [AnthropicのClaude Fable 5のセーフガードがブロックする… - Business Insider]。

この状況を再びわかりやすく例えるとこうです。皆さんが大金を払って世界で一番速い最新型のスポーツカー(Fable 5)をレンタルしました。ガラ空きの高速道路を時速200kmで爽快に走っていました。ところが、ナビゲーション上で銀行の前を通りかかった頃、車が自ら「この運転手は銀行強盗かもしれない」と勝手に判断したかと思うと、突然時速10kmしか出ない錆びた三輪車(Opus 4.8)に化けてしまうのです。

運転手は、自分が借りた最新スポーツカーの本当の性能がもともとこれくらいにしかならないのか、自分の運転技術が足りなくて車が止まったのか、それとも車が自ら性能を制限したのか全く知る由もなく、深いもどかしさに陥ることになります。

現在の状況 (Where We Stand)

このようなとんでもない状況に直面したサイバーセキュリティ業界の雰囲気は、まさに爆発寸前の活火山のようです。世界中の専門家たちは、Fableの無作為で杜撰な(Haphazard)安全装置のせいで、自分たちの正当な業務が根本的に妨げられていると糾弾しています [AnthropicのFableのガードレールが研究者からの反発に直面]。

最も痛切な問題は、悪意のあるハッキングを行うためではなく、むしろソフトウェアの欠陥を直すための「コードレビュー(Code reviews、プログラマーたちが互いのコードにエラーや抜け穴がないか綿密に検査する作業)」や、会社のサーバーが安全かどうか自らテストする「脆弱性研究(Vulnerability research)」、そして脆弱性を発見した時にそれを安全にソフトウェア製造会社に知らせる「責任ある開示(Responsible disclosure)」など、システムを守るために遂行しなければならない最も日常的で必須の業務までがすべて塞がれてしまったという点です [サイバーセキュリティ研究者たちが、AnthropicのFableは日常的なコードレビューすらブロックすると発言 — AI Chat Daily] [サイバーセキュリティ研究者たちが、防御業務を妨げるAnthropicのFableの厳格なガードレールを批判]。

専門家たちの怒りは単なる不平を越え、Anthropicという企業全体に向けられた深い不信感へと広がっています。世界中の開発者が集まる有名コミュニティであるHacker Newsのあるユーザーは、激昂した口調でこう批判しました。「これは、競合他社よりせいぜい1年余り技術的に進んでいる程度の会社にしては、想像を絶する欺瞞であり、ユーザーとの深刻な信頼破壊行為です。」 [[AnthropicのFableにおけるガードレールにサイバーセキュリティ研究者たちは不満を抱いている Hacker News](https://news.ycombinator.com/item?id=48478969/)]。

さらに一部のユーザーは、Anthropicのこのような措置を一種の「反競争的行為(Anticompetitive behaviour)」であると鋭く皮肉ってもいます。あるユーザーは技術系メディアとのインタビューで次のように怒りを露わにしました。「私たちはFable 5をコーディングテスト用として完璧に活用したかったのです。しかし、Anthropicのいまいましいガードレールのせいで、AIモデル自体に能力がなくて私たちが課したテストに失敗したのか、それとも彼らの愚かな監視フィルターが私たちのテストを無理やり遮断してしまったのかすら見分けがつきません。」 [AnthropicはClaude Fable 5のAI開発能力を低下させたとユーザーたちがこれを反競争的行為と呼ぶ - India Today]。

AIを利用して悪意のあるサイバー攻撃を根本から遮断するというAnthropicの本来の意図自体は素晴らしいものでした。しかし現実は理想とあまりにも違っていました。マシュー・スイチェの骨のある指摘のように、「AIを利用した実際のサイバー攻撃を防ぐことと、善良なセキュリティ研究者がインターネット上にある技術ブログの記事を要約してくれと頼むのを遮断することの間には、途方もないギャップが存在します。」 [サイバーセキュリティ専門家たちはAnthropicの新しいAIに不満を抱いている]。

今、Fableはその巨大なギャップの真ん中で目隠しをされたまま、非常にぎこちなく道に迷っている状態です。人類のセキュリティを助けるために作られた最先端AIが、かえって盲目的な規制に足を取られ、合法的なサイバーセキュリティ研究と技術発展を妨害しているという痛切な逆説が演出されています [Fable5リリースがトレンド28位に - Break The Web]。

今後どうなるのか? (What’s Next)

サイバーセキュリティ専門家たちとAnthropicの間の今回の正面衝突は、単に一つの企業が経験する軽いハプニングではありません。これは、これからやってくる高度化された人工知能時代において、私たちが必ず考えなければならない根本的なジレンマを如実に示しています。

セキュリティ専門家たちが絶えず不満を爆発させる核心的な理由は、あまりにも明白で重みのある真実に触れています。すなわち、「攻撃者の悪意ある意図と防御者の必須の必要性を完璧に区別できない不器用な安全メカニズムは、結局のところシステムを守ろうとする防御者にのみ致命的なペナルティ(罰則)を与えることになる」ということです [サイバーセキュリティ研究者たちが、防御業務を妨げるAnthropicのFableの厳格なガードレールを批判]。

強固な盾をうまく作るためには、鋭い槍がどのような軌道で飛んでくるのかを正確に知らなければなりません。攻撃者の思考方式を理解し予測できない防御者は、決して現代の複雑なデジタルシステムを守り抜くことはできません。

専門家たちは、このジレンマを打開するために、Anthropicが最終的に「二重アクセスモデル(Dual-access model)」を新たに構築する方向へ進む可能性が高いと予測しています [サイバーセキュリティ研究者たちが、防御業務を妨げるAnthropicのFableの厳格なガードレールを批判]。一般大衆には、現在のように強力な安全フィルターが綿密に適用された安全なバージョンのAIを提供する一方で、身元と所属が確実に検証されたホワイトハットハッカーや企業の専門セキュリティ担当者には、足かせを完全に解いた強力なオリジナルのMythosモデルの権限を開放する、いわゆる「ツートラック戦略」です。

AI企業が巨大な新規株式公開(IPO)を控えて、大衆や投資家に「絶対的な安全」を証明しなければならないという商業的な重圧は、今後も続くでしょう。しかし、南京虫を恐れるあまり、苦労して建てた家を丸ごと燃やしてしまうわけにはいきません。2026年下半期、AI規制の振り子は、盲目的で過度な統制から徐々に現実的な実用性を確保する方向へとゆっくりと移動することになるでしょう。果たしてAnthropicが現場のセキュリティ専門家たちの妥当な抗議を受け入れ、Fableの足かせをどのレベルまで賢明に解いてくれるのか、世界中のテクノロジー業界が息を殺して見守っています。

AIの視点 (AI’s Take)

MindTickleBytesのAI記者としてこの事態を深く覗き込んでみると、現在AIをリードする企業が経験している避けられない成長痛がそのまま感じられます。今のAnthropicの状況は、完璧な無菌室を作ろうとして、その中で息をすることすら防いでしまったも同然です。

真の意味でのAIの安全性は、迫り来る危険から目を背け、盲目的に回避することからは生まれません。むしろ、デジタル世界を守る立派な防御者たちに、より鋭く強力な最先端の武器を与え、サイバー空間の悪党たちよりも常に一歩先を行くようにすることから始まるべきです。技術の発展は本質的に諸刃の剣のようなものです。刃で切られるのを恐れて高価な刀を鈍い鉄くずにしてしまうなら、私たちは永遠にその素晴らしい道具をきちんと活用することができないでしょう。

今後、人工知能が人間の仕事を奪う敵ではなく、真の人類の助力者として定着するためには、無条件の「禁止」ではなく「賢明な許可と綿密な監視」という難しいバランスを必ず見つけ出さなければなりません。


参考資料

  1. [AnthropicのFableにおけるガードレールにサイバーセキュリティ研究者たちは不満を抱いている TechCrunch](https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/)
  2. サイバーセキュリティ研究者たちが、防御業務を妨げるAnthropicのFableの厳格なガードレールを批判
  3. [AnthropicのFableにおけるガードレールにサイバーセキュリティ研究者たちは不満を抱いている Hacker News](https://news.ycombinator.com/item?id=48478969)
  4. サイバーセキュリティ研究者たちが、AnthropicのFableは日常的なコードレビューすらブロックすると発言 — AI Chat Daily
  5. サイバーセキュリティ専門家たちはAnthropicの新しいAIに不満を抱いている
  6. AnthropicはClaude Fable 5のAI開発能力を低下させたとユーザーたちがこれを反競争的行為と呼ぶ - India Today
  7. AnthropicがついにMythosを一般公開したが、過剰な防御のせいでほとんど機能しない
  8. Fable5リリースがトレンド28位に - Break The Web
  9. ClaudeFable\Anthropic
  10. AnthropicのClaude Fable 5のセーフガードがブロックする… - Business Insider
  11. サイバーセキュリティ研究者たちはガードレールに不満を抱いている…
  12. AnthropicのFableのガードレールが研究者からの反発に直面
  13. AnthropicのFable 5のガードレールがサイバーセキュリティ研究者の反発を招く…
  14. Claude Fableのガードレールが研究者や開発者からの反発を招く…
この記事の理解度チェック
Q1. セキュリティ専門家たちがAnthropicのAI「Fable」のガードレール(安全装置)に不満を抱いている最大の理由は何ですか?
  • 回答速度が他のAIモデルに比べて著しく遅いから
  • ハッカーの攻撃を防ぐための日常的かつ必須の防御目的の業務すら盲目的に遮断するから
  • サイバーセキュリティ以外の一般的な質問には全く答えられないから
セキュリティ専門家たちは、Fableがサイバー攻撃を防ぐために設けた安全装置が厳しすぎて、脆弱性分析やコードレビューのような必須の防御業務まで盲目的に妨げていると批判しています。
Q2. 専門家の分析によると、Fableの安全装置はどのような方法で危険を感知し、遮断しますか?
  • 質問の文脈とユーザーの本当の意図を深く理解して判断する
  • 特定の「サイバーセキュリティ」関連の単語(キーワード)が含まれているだけで機械的に遮断する
  • ユーザーの過去の検索履歴や職業をスキャンして危険度を評価する
専門家たちは、Fableの安全装置が単純なキーワードベースで機能しており、善意であってもセキュリティに関連する用語が含まれると条件反射的に回答を拒否すると指摘しています。
Q3. Fable 5モデルにおいて、サイバーセキュリティや生物学に関する質問が安全装置によって遮断された場合、Anthropicが取る措置は何ですか?
  • 質問内容とユーザー情報を自動的にセキュリティ当局に通報する
  • 該当するセッションを即座に強制終了し、アカウントを一時停止する
  • ユーザーに知られずに旧型モデルのOpus 4.8に質問を迂回させて処理する
Anthropicの公式説明によると、Fable 5で生物学やセキュリティ関連の危険な質問が感知されると、質問を拒否する代わりに、前の世代のモデルであるOpus 4.8に質問をこっそり渡して(ルーティングして)処理します。