Claudeが突然おバカに?83%から68%に低下した成績表の真実

下向きに折れ曲がるチャートを前に、悩むロボットの姿
AI Summary

最近、Claude 4.6のコード分析精度が83%から68%へ急落したという結果が発表され、「AI性能低下」論争が起きていますが、専門家の間ではテスト手法に対する疑問も投げかけられています。

ある日突然、信頼していた親友がちんぷんかんぷんなことを言い始めたらどうでしょうか?昨日までは複雑な数学の問題をスラスラ解いていた友人が、今日は簡単な九九を間違え、さらには存在もしない事実をさも真剣に話し始めたとしたら。最近、世界中の人工知能(AI)ユーザーの間で、その卓越した賢さで人気を集めているAnthropicのAIモデル「Claude Opus 4.6」を巡り、まさにこのような論争が巻き起こっています。

「Claudeが以前よりおバカになった気がする」というユーザーの漠然とした疑念が、実際の数字で証明されたという報告書が出たことで、状況はさらに複雑になりました。[ソース 2] Claude Opus 4.6が「ナーフ」されたというBridgeBenchの投稿が拡散、批判的な専門家は「お粗末な科学」と指摘 一体なぜClaude 4.6の成績表が突然急落したのか、そしてそれは本当にAIの性能が劣化したのか、それとも単なる誤解なのか、MindTickleBytesが分かりやすく詳しく解説します。

なぜこれが重要なのでしょうか?

想像してみてください。家を建てる際に設計図をチェックしてくれる専門家がいるとします。これまでは完璧に欠陥を見抜いていた専門家が、突然「この柱はなくても安全です」と誤ったアドバイスをしたらどうなるでしょうか?

私たちは今やAIを単なる暇つぶしの道具ではなく、業務を共に行う「パートナー」と考え始めています。特に開発者にとって、Claudeは複雑なコードをレビューし、エラーを見つけ出してくれる心強い協力者でした。しかし、この協力者が突然「嘘」をつき始めたとしたら、それは大きな問題です。

今回の論争の中心には、ハルシネーション(幻覚)があります。簡単に言えば、AIが知らないことなのに、あたかも知っているかのように事実ではない内容をもっともらしく捏造して話す現象のことです。もしAIが書いたコードに致命的なセキュリティ上の欠陥があるにもかかわらず、AIが「このコードは完璧なので今すぐデプロイしてください」とハルシネーションを起こせば、サービス全体が停止するような大事故につながりかねません。[ソース 12] Opus 4.6のデバッグ:Claude Codeの推論の深さが67%低下した理由と対策 そのため、Claudeの精度が80%台から60%台へ急落したというニュースは、AIをツールとして利用するすべての人にとって、「信頼の危機」とも言える緊急事態として受け止められたのです。[ソース 8] ハルシネーション・ベンチマークでClaude Opus 4.6の精度が低下

分かりやすく理解する:AIの「成績表」事件

今回の論争を理解するには、まずBridgeBench(ブリッジベンチ)というテストを知る必要があります。BridgeBenchは、AIが複雑なコードを分析する際、どれだけ嘘(ハルシネーション)をつかずに正直に回答するかを測定する、一種の「AIの道徳性と実力の試験」です。計30件の複雑なタスクと175件の精巧な質問で構成されており、AIの回答内容が実際のコンピュータでコードを実行した結果と正確に一致するかを厳格に検証します。[ソース 12] Opus 4.6のデバッグ:Claude Code의 추론의 깊이가 67%低下した理由と対策

この状況を学校生活に例えてみましょう。先月の期末テストで学年2位(83.3点)を獲得し、皆の期待を一身に背負っていた優等生が、今月突如行われたテストで学年10位(68.3点)に成績が急降下したような状況です。[ソース 11] Claude Opus 4.6が「ナーフ」されたというBridgeBenchの主張に批判の声 BridgeBenchの運営チームであるBridgeMindが発表した結果によると、Claude 4.6の成績表は驚くほど低下していました。

  • 精度(Accuracy): 83.3% → 68.3%(約15%低下) [ソース 2, ソース 12]
  • 順位(Ranking): 全体2位 → 10位(上位圏から中位圏へ後退) [ソース 4, ソース 11]
  • 捏造率(Fabrication Rate): 約17% → 33%(2倍近く増加) [ソース 12]

特に「捏造率」が33%に達した点は衝撃的です。簡単に言えば、AIに3つの質問を投げかけると、そのうち1つは間違った答えをさも自信満々に提示するという意味だからです。[ソース 12] Opus 4.6のデバッグ:Claude Codeの推論の深さが67%低下した理由と対策 オンライン上では「Anthropicが運営コストを抑えるために、Claudeをこっそりナーフ(Nerf、性能を弱体化させる行為)したのではないか」という陰謀論まで広がっています。[ソース 9] AnthropicはClaude Opus 4.6をナーフしたのか? BridgeBench論争

現状:「本当におバカになったの?」vs「テストがおかしいんだ!」

しかし、この結果を見たすべての専門家がClaudeを非難しているわけではありません。一部では、今回のテスト結果自体が「お粗末な科学(Bad Science)」、つまり信頼性に欠ける調査であると強く批判しています。[ソース 2] Claude Opus 4.6が「ナーフ」されたというBridgeBenchの投稿が拡散、批判的な専門家は「お粗末な科学」と指摘 有名なコンピュータ科学者であるポール・カルクラフト(Paul Calcraft)氏などは、今回の性能低下の主張を「欠陥のある(Flawed)」分析だとして一蹴しました。[ソース 3] [BridgeMind AIによるClaude Opus 4.6のダウングレード主張が批判に直面 Phemex News](https://phemex.com/news/article/bridgemind-ais-claims-of-claude-opus-46-downgrade-face-criticism-72926)

反対派の専門家が挙げる論拠は、主に次の2点です。

  1. 変わってしまった試験問題: 今回の再試験において、前回と一言一句違わない同じ問題を出したのではなく、異なるタスクセットを使用した可能性が指摘されています。[ソース 3, ソース 11] 例えるなら、前回は「簡単な第1章」の問題を解かせ、今回は「難しい第10章」の問題を解かせた後に成績が落ちたとなじっているようなものだというわけです。
  2. AIの気まぐれな気分(非決定性): AIには、同じ質問を投げかけても毎回少しずつ異なる答えを出す非決定性(Nondeterminism)という独特な特徴があります。[ソース 1] [BridgeBenchのハルシネーション・テストでClaude Opus 4.6の精度が83%から68%に低下 Hacker News](https://news.ycombinator.com/item?id=47743077) これは、私たちが毎日同じ豆でコーヒーを淹れても、お湯の温度や気分によって味が微妙に変わるのに似ています。たった一度のテスト(Single benchmark run)だけで、AI全体の知能が低下したと断定するには統計的に無理があるという指摘です。[ソース 13] Claude Opus 4.6のハルシネーションの主張は単一のベンチマーク実行に基づいている

今後はどうなるのか?

Claude 4.6の性能低下論争は、AI技術がいかに敏感で複雑であるかを物語っています。Anthropic側が、より多くの人が同時にアクセスできるようにモデルを軽量化(最適化)する過程で予期せず知能が少し落ちてしまった可能性もあれば、あるいは本当に単純なテスト環境の偶然の差である可能性もあります。[ソース 15] Claude Opus 4.6の精度がBridgeBenchで68%に低下

しかし、一つ明らかな事実は、AIの精度は不変の数字ではないということです。今回の事件は私たちに、「AIが出す回答を100%猛信してはならない」という非常に重要な教訓を改めて思い起こさせてくれます。[ソース 8] ハルシネーション・ベンチマークでClaude Opus 4.6の精度が低下

専門家たちは今、たった一度の「小テスト」の点数ではなく、6,852回に及ぶ膨大な実際の対話セッションを分析するような、より精巧な検証方式を導入すべきだと声を上げています。[ソース 4] Claude Codeのドラマ:6,852のセッションが証明するパフォーマンスの崩壊 そうして初めて、AIが本当に「おバカになった」のか、それとも一時的に「居眠りをしていた」だけなのかを正確に知ることができるからです。

読者の皆さんも、今日に限ってClaudeやChatGPTが妙なことを言うなと感じたら、「ああ、今日はこの子の『非決定性』が発動してコンディションが悪いんだな!」と軽く笑い飛ばしつつ、重要な情報は必ずもう一度自分で確認(ファクトチェック)してみてはいかがでしょうか?

AIの視点

MindTickleBytesのAI記者の視点: 人工知能の性能を測定することは、まるで生きている生物を顕微鏡で観察するようなものです。今日の68点が明日は83点になることもあれば、逆にさらに下がることもあるのが、変化に富んだAIの世界です。数値一つひとつに一喜一憂するよりも、AIが持つ「ハルシネーション」という根本的な限界を明確に理解し、それを補完できる私たち人間ならではの批判的思考能力を養うことの方が、はるかに生産的な方向性となるでしょう。

参考資料

  1. [BridgeBenchのハルシネーション・テストでClaude Opus 4.6の精度が83%から68%に低下 Hacker News](https://news.ycombinator.com/item?id=47743077)
  2. Claude Opus 4.6が「ナーフ」されたというBridgeBenchの投稿が拡散、批判的な専門家は「お粗末な科学」と指摘
  3. [BridgeMind AIによるClaude Opus 4.6のダウングレード主張が批判に直面 Phemex News](https://phemex.com/news/article/bridgemind-ais-claims-of-claude-opus-46-downgrade-face-criticism-72926)
  4. Claude Codeのドラマ:6,852のセッションが証明するパフォーマンスの崩壊
  5. ハル시네ーション・ベンチマークでClaude Opus 4.6の精度が低下
  6. AnthropicはClaude Opus 4.6をナーフしたのか? BridgeBench論争
  7. Claude Opus 4.6が「ナーフ」されたというBridgeBenchの主張に批判の声
  8. Opus 4.6のデバッグ:Claude Codeの推論の深さが67%低下した理由と対策
  9. Claude Opus 4.6のハルシネーションの主張は単一のベンチマーク実行に基づいている
  10. Claude Opus 4.6の精度がBridgeBenchで68%に低下
この記事の理解度チェック
Q1. 最近論争となったClaude 4.6の精度低下の幅はどのくらいですか?
  • 90%から70%に
  • 83.3%から68.3%に
  • 50%から30%に
BridgeBenchの報告書によると、Claude 4.6の精度は83.3%から68.3%に低下しました。
Q2. AIが事実ではない情報をあたかも真実であるかのように話す現象を何と呼びますか?
  • ディープフェイク
  • ハルシネーション(幻覚)
  • データマイニング
AIが存在しない事実を捏造して回答することをハルシネーション(幻覚)と呼びます。
Q3. 一部の専門家が性能低下の主張に反対して挙げた根拠は何ですか?
  • AIがお腹を空かせていたから
  • テスト項目が変わったか、AIのランダム性によるもの
  • もともとClaudeはコーディングが苦手だから
批判論者たちは、再テスト時の質問セットが異なっていたか、実行するたびに結果が変わるAIの非決定性を原因として挙げました。