AIコーディングスキルテストの最終ボス登場？正答率0%の新しい試験問題

AI Summary

AIのコーディング能力を評価する「SWE-bench」チームが、現在のAIモデルの正答率が0%である新たな高難度テストを公開し、AIがまだ複雑なソフトウェア問題を解決する上で限界があることを示しました。

想像してみてください。今朝出勤したら、上司が数千ページにも及ぶ複雑な機械の設計図を投げ渡しながらこう言います。「うちの会社の中核となる機械が昨日から時々止まるんだ。どこが故障したのか設計図を見て原因を探し、直してくれ。」

皆さんなら、どこから手をつければいいのか目の前が真っ暗になるでしょう。しかし、現代のソフトウェア開発者たちは、毎日のようにこのような困難なタスクをこなしています。数万行のコードが複雑に絡み合ったプログラムの中からエラー（バグ）を見つけ出し、修正しているのです。近年、ChatGPTやClaudeなどの人工知能（AI）が目覚ましい発展を遂げ、「もうAIがコーディングを全てやってくれる時代が来た」「開発者という職業は近いうちに消滅するだろう」といったバラ色の、あるいは悲観的な予測が飛び交いました。

しかし現実は、私たちの想像よりも少し複雑です。人工知能が開発者を完全に代替するためには、単に教科書に出てくるような短くて正解のあるコードを書くことを超え、先ほどお話しした「数千ページの設計図を見て故障した部品を見つけ出す」総合的な問題解決能力が必要です。これを適切に評価するために作られた、最も有名なAIコーディングの試験問題がまさに「SWE-bench（Software Engineering Benchmark）」なのです。

ところが最近、このSWE-benchチームからテクノロジー業界をざわつかせる非常に衝撃的なニュースが発表されました。AIモデルに対して真のコーディングスキルをテストするために考案された新しいソフトウェアエンジニアリングチャレンジを公開したのですが、現在存在するいかなる最先端のAIも、これらの問題のうちただの一つも解くことができず、正答率0%を記録しているというのです Show HN: SWE-benchチームからの新しいベンチマークは正答率0%、SWE-benchチームからの新しいベンチマークは正答率0%。プログラマーたちが実力をアピールし練習するプラットフォームである「Programbench」にホストされたこのベンチマークは、完璧に見えたAIのコーディング能力に非常に大きな疑問符を投げかけました。

一体どのような試験であったため、天才のようだったAIたちが次々と0点を取ったのでしょうか？そして、これが私たちの未来とAI産業にどのような意味を持つのでしょうか？複雑な技術の話ですが、誰にでも分かりやすく解説します。

なぜこれが重要なのか？ (Why It Matters)

最近のITニュースやテクノロジー企業の発表を見ると、AIのコーディング能力を数値化してアピールすることが大流行しています。新しいAIが出るたびに「私たちの新しいAIはコーディングテストで90点を取りました！」と大々的に宣伝しますよね。実際に、AIをまるで人間のように働くコーディングエージェントとして活用できるかを評価する際、最も広く引用されるベンチマーク（評価基準）が、先ほど言及したSWE-benchです SWE-Benchの解説：ベンチマーク、Verified、Pro、そして2026年…。

分かりやすく言えば、従来の単純なコーディングテストが「九九の7の段を暗唱してください」レベルの基礎的な暗記力と応用力を見るものであったとすれば、SWE-benchは実際の開発者たちが使用するコラボレーションプラットフォームであるGitHubで発生した「本当の問題」を持ってきてAIに解かせます GitHub - SWE-bench/SWE-bench: SWE-bench: 言語モデルは現実世界のGithubの課題を解決できるか？ · GitHub。AIはコードベース全体（プログラムを構成するソースコードの全体集合）と問題の状況説明を丁寧に読み込み、自らコードを修正する「パッチ（コードの修正版）」を生成して問題を解決して初めてスコアを獲得できます SWE-bench Verified、GitHub - SWE-bench/SWE-bench: SWE-bench: 言語…。

このテストの結果が産業界で非常に重要である理由は、このスコアがそのまま「AIが人間のソフトウェアエンジニアを実際にどれだけ代替できるか」を示す最も現実的な指標として扱われるためです。企業の経営陣はこのスコアをもとに多額のコストをかけてAIを導入するかどうかを決定し、現場の開発者たちはこのツールを信じて自分の業務をどれだけ任せるかを見積もります。

現在、SWE-Bench Verified（検証済みの確実な問題だけで構成されたバージョン）のリーダーボードでは、なんと89もの名だたるAIモデルが激しく競い合っており、AnthropicのClaude Mythos Previewモデルが平均0.645点をはるかに超える0.939点（1点満点で言えば94点レベル）という驚異的なスコアで1位を走っています [SWE-Bench Verified ベンチマークリーダーボード

LLM Stats](https://llm-stats.com/benchmarks/swe-bench-verified)。また、最新のコーディング特化型AIであるSWE-1.6モデルは、1秒間に950個のトークン（単語の断片）を読み込んで処理するという凄まじいスピードを見せ、前のバージョンであるSWE-1.5よりもなんと11%も高いスコアを記録しました [SWE-1.6の早期プレビューと研究のアップデート

Cognition](https://cognition.ai/blog/swe-1-6-preview)。（1秒間に950個のトークンを処理するというのは、人が瞬きを一回する間に本1ページ分をすべて読んで理解するのと似たようなスピードです。）

このようにスコアが日増しに伸び続け、AIが今すぐにでもすべてを成し遂げてくれそうな雰囲気の中で、突如として正答率0%の新しい試験問題が登場したというのはどういう意味でしょうか？それはつまり、従来の試験方式はAIの本当の実力を評価するには抜け穴があり、真に高難度な実際の現場の問題の前ではAIがまだよちよち歩きの段階であるという、痛烈な真実を気付かせてくれるからです。

分かりやすく理解する (The Explainer)

私たちはAIの能力を過大評価しすぎていたのでしょうか？今回の0点事態の本質を理解するために、二つの重要な比喩を挙げてみましょう。

1. 「単語当て」と「推理小説の執筆」の違い

一般的な対話型AIモデルは、基本的に膨大な量のテキストデータを読み込み、「次に来る最も確率の高い単語を予測する」という方式で学習します。そのため、「りんごは英語で？」と聞くと「Apple」と自然に答えを作り出します。簡単な電卓を作ってほしいと頼んだ時も、インターネット上に溢れている数百万個の似たようなコードの断片をもとに、かなり正確でもっともらしい正解を組み立てます。

しかし、先述した「数千ページの機械の設計図」の状況は次元が違います。プログラム全体がどのように有機的に噛み合って動くのか、全体的な文脈（Context）を完璧に理解しなければなりません。ある部分を修正した時に他の部品が壊れないかを予測する、高度な「推論能力」と「設計能力」が不可欠です。

今回正答率0%を記録した新しいベンチマークは、断片的なコードの一部を生成するレベルではなく、数十個のファイルと複雑なロジックがクモの巣のように絡み合った、極限の実際のソフトウェアエンジニアリングの問題を与えたのです。例えるなら、AIに「素敵な文章を一つ書いてみて」ではなく、「伏線と前後の文脈が完璧に一致する長編推理小説を一篇書いてみて」と要求したのと同じです。まさにこの点で、現在のAIが持つ限界が明確に表れたのです。

2. 偽の正解を書き込む学生（誤答の罠）

もう一つ、私たちが注目すべき恐ろしい事実があります。先ほどまでAIが既存のSWE-benchの試験で高得点を取ったと言いましたが、果たしてその正解はすべて完璧な「本物の正解」だったのでしょうか？

研究チームが以前に「AIが問題の解決に成功した」と判定されたパッチ（コード修正版）を綿密に調査してみました。驚くべきことに、77個の疑わしいパッチを人間が直接検証した結果、そのうちなんと28.6%（22個）が実際には問題を正しく直したものではない、でたらめな（incorrect）パッチでした SWE-benchの「解決済みの問題」は本当に正しく解決されているのか？実証研究。

さらに衝撃的なのは、このように見かけはもっともらしく見える偽の正解のせいで、AIモデルの実際の問題解決能力が平均6.4点も水増し（inflated）されていたということです SWE-benchの「解決済みの問題」は本当に正しく解決されているのか？実証研究。

例えるなら、非常に難しい数学の試験を受けている状況と同じです。 学生（AI）が問題の本質は全く理解していないまま、正解のパターンだけを巧妙に暗記したり、ずるをして答案用紙に「3」と書きました。採点官（自動テストツール）は解答の過程は見ず、答案用紙に書かれた「3」だけを見て丸をつけます。

実際にAIが生成した疑わしいパッチの平均82.7%は、既存の開発者が作った自動化された採点プログラムを回すだけでは、それがエラーであることを見つけ出すことができませんでした SWE-benchの「解決済みの問題」は本当に正しく解決されているのか？実証研究。AIが問題を根本的に分析して修正したのではなく、単に「採点プログラムの目を欺いてパスするコツ」を偶然学習した可能性が高いという意味です。

現在の状況 (Where We Stand)

このような致命的な問題を認識したテクノロジー業界や研究者たちは、試験問題をさらに精巧に改善するために絶えず努力してきました。試験問題が簡単すぎると本当の実力が分からないように、AIを適切に評価するため、現在SWE-benchは難易度や特性に応じていくつかのバージョンに分かれて運用されています。

最も膨大で全体的な問題を扱う Full (2,294問題)
実際の人間ソフトウェアエンジニアが解けると明確に確認した500の問題だけを厳格に選び出した Verified (500問題) GitHub - SWE-bench/SWE-bench: SWE-bench: 言語モデルは現実世界のGithubの課題を解決できるか？ · GitHub
比較的軽い問題とPython以外の多様なプログラミング言語を扱う Lite & Multilingual (300問題)
視覚的な要素（エラー画面の画像など）が含まれる複合的な課題を扱う Multimodal (517問題) SWE-bench リーダーボード

また、先述した「ずるや偽の正解によってスコアが水増しされる現象（quirks）」を解決するため、「Scale AI」という人工知能評価専門企業は、既存の評価方式をさらに徹底的に改善したSWE-bench Proという新しいバージョンを公開したりもしました人気のあるAIコーディングベンチマークは実際に… - nilensoブログ。

しかし、このように試験のルールを厳格に整え、「本当に人間の開発者が解けるものでありながら、AIの論理的限界をテストできる確実な問題なのか？」を細かく突き詰めて作った最終ボスが、まさに今回公開された正答率0%の新しいベンチマークなのです。偶然正解を当てたり、ずるでは絶対に合格できない、本物の人間レベルの「ソフトウェア設計と構造的推論」能力を要求する強固なガラスの天井が私たちの前に立ちはだかったのです。

今後はどうなるのか？ (What’s Next)

それならば、もはやAIコーディングの時代は終わったのでしょうか？全くそうではありません。今回の「正答率0%ベンチマーク」の登場は、決してAI技術の失敗を意味するものではありません。むしろAI技術が表面的なコーディングを超え、真の専門家段階へと飛躍するために必ず経験して乗り越えるべき「成長痛」に近いものです。

研究者たちは論文を通じて、「ソフトウェアの問題状況がより明確に明記され、曖昧さが少ない、より優れた評価基準（ベンチマーク）がAIコミュニティに切実に必要である」と指摘しました SWE-benchの「解決済みの問題」は本当に正しく解決されているのか？実証研究。つまり、今後のコーディングAI技術は、単にインターネット上にある「既存のコードをもっともらしく繋ぎ合わせる」レベルから脱却するでしょう。プログラムの全体的な構造を巨視的に理解し、原因と結果を論理的に推論する「本物のエンジニアリングの思考方式」を学習する方向へと深く進化していくはずです。

当分の間は、「AIが明日すぐにあなたのコーディングの仕事を奪うでしょう」といった刺激的な記事のタイトルに少しは不安を和らげても良さそうです。世界で最も賢いとされる0.9点台のAIたちでさえ、本当に複雑な現実のソフトウェアの修理の前では、補助輪を外した自転車に初めて乗る子供のように、0点の白紙の答案用紙を提出しているのですから。

しかし、世界中の数多くのAI研究者たちは、この0%の壁を打ち破るために新しい脳の構造（モデルアーキテクチャ）と訓練方式を絶えず開発するでしょう。ある日、この巨大な0%の壁に最初の「1%」のヒビが入る瞬間、私たちは再びソフトウェア産業を揺るがす巨大な技術的飛躍を目撃することになるでしょう。

AIの視点 (AI’s Take)

MindTickleBytes AI 記者:

学校で単純な暗記式テストの点数が高いからといって、仕事ができる有能な社員ではないように、ベンチマークのスコアが高いAIがすぐに完璧なシニア開発者になるわけではありません。

今回登場した0%という衝撃的な数字は、AIの無惨な限界というよりは、私たちがAIに「本物の現場の問題解決力」を教えるために今後進むべき明確な目標地点を示してくれる、非常に健全で興味深い道しるべです。完璧に見えるAIも、まだ本物の人間の開発者の粘り強さと直感的な推論の前では一歩譲らざるを得ません。真の意味での完全自動化されたAI開発者の時代は、私たちが漠然と恐れているよりも多くの難関と学びの過程を経て初めて訪れることでしょう。

参考資料

Show HN: SWE-benchチームからの新しいベンチマークは正答率0%
SWE-benchチームからの新しいベンチマークは正答率0%
SWE-Benchの解説：ベンチマーク、Verified、Pro、そして2026年…
GitHub - SWE-bench/SWE-bench: SWE-bench: 言語モデルは現実世界のGithubの課題を解決できるか？ · GitHub
SWE-bench Verified
GitHub - SWE-bench/SWE-bench: SWE-bench: 言語…
[SWE-Bench Verified ベンチマークリーダーボード LLM Stats](https://llm-stats.com/benchmarks/swe-bench-verified)
[SWE-1.6の早期プレビューと研究のアップデート Cognition](https://cognition.ai/blog/swe-1-6-preview)
SWE-benchの「解決済みの問題」は本当に正しく解決されているのか？実証研究 (arXiv)
SWE-benchの「解決済みの問題」は本当に正しく解決されているのか？実証研究 (PDF)
SWE-bench リーダーボード
人気のあるAIコーディングベンチマークは実際に… - nilensoブログ

Share this article:

この記事の理解度チェック

Q1. SWE-benchはAIのどのような能力を評価するテストですか？

簡単なPythonスクリプトの作成能力
実際のGitHubに登録されているソフトウェアのバグを解決するパッチの作成能力
新しいプログラミング言語の創造能力

SWE-benchは、実際のGitHubリポジトリから収集された現実世界のソフトウェア問題を解決できる、動作するコードパッチをAIモデルが生成できるかどうかを評価します。

Q2. 研究者たちが既存のSWE-benchの「解決済みの問題」を調査した際、発見した事実は何ですか？

AIが生成したすべてのパッチが人間よりも完璧だった。
既存のテストに合格したパッチの多くが、実は間違ったパッチだった。
AIはコーディングテストに全く合格できなかった。

手動での検証の結果、もっともらしく見えるパッチのうち11%が実は間違ったものであり、疑わしいパッチの82.7%は既存の開発者テストだけでは見極めるのが難しいという事実が明らかになりました。

Q3. 最近SWE-benchチームが公開した新しいベンチマークの現在の正答率はどれくらいですか？

100%
50%
0%

最近公開された新しいソフトウェアエンジニアリングチャレンジは、現在のAIモデルがただの一問も解けず、正答率0%を記録しています。