評估 AI 程式設計能力的「SWE-bench」團隊公布了一項目前 AI 模型答對率為 0% 的全新高難度測試,顯示 AI 在解決複雜軟體問題上仍有其極限。
想像一下。今天早上你去上班,老闆丟給你一份幾千頁的複雜機器設計圖,並這樣說:「我們公司的核心機器從昨天開始偶爾會停機,你看看設計圖找出哪裡壞了,然後把它修好。」
換作是你,大概會眼前一黑,不知道該從何下手吧。但是現代的軟體開發者每天都在完成這些艱鉅的任務。也就是在錯綜複雜的數萬行程式碼中找出錯誤(Bug)並加以修正。近年來,隨著 ChatGPT 或 Claude 等人工智慧(AI)的飛速發展,諸如「現在 AI 可以包辦所有程式設計了」、「開發者這個職業遲早會消失」等樂觀或悲觀的預測不斷湧現。
然而,現實情況比我們想像的要複雜一些。為了讓人工智慧完美取代開發者,它不能僅僅是寫出教科書上那種簡短且有標準答案的程式碼,還需要具備前述「看著幾千頁設計圖找出故障零件」的綜合問題解決能力。為了準確評估這項能力而誕生的最著名的 AI 程式設計試卷,就是 「SWE-bench (Software Engineering Benchmark)」。
不過最近,這個 SWE-bench 團隊發表了一個讓科技界議論紛紛的震撼消息。他們公布了一項全新的軟體工程挑戰,旨在測試 AI 模型的真正程式設計技術,結果發現目前現存的任何最先進 AI 都無法解出其中任何一題,創下了答對率 0% 的紀錄 Show HN: New Benchmark from SWE-bench team is 0% solved、New Benchmark from SWE-bench team is 0% solved。這個託管在讓程式設計師展示實力與練習的平台「Programbench」上的基準測試,對原本看似完美的 AI 程式設計能力打上了一個巨大的問號。
這到底是個什麼樣的考試,竟然讓那些宛如天才的 AI 們紛紛抱鴨蛋?這對我們的未來和 AI 產業又意味著什麼?雖然這是個複雜的技術話題,但我會用大家都聽得懂的方式為您解說。
為什麼這很重要? (Why It Matters)
最近看 IT 新聞或科技公司的發表會,將 AI 的程式設計能力量化並加以吹捧已經成為一大趨勢。每當有新的 AI 問世,他們就會大肆宣傳:「我們的新 AI 在程式設計測試中拿了 90 分!」實際上,在評估是否能將 AI 當作像人一樣工作的程式設計代理人時,最常被引用的基準測試就是前面提到的 SWE-bench SWE-Bench Explained: Benchmarks, Verified, Pro, and the 2026 …。
簡單來說,如果過去單純的程式設計測試是在考驗「請背出九九乘法表 7 的乘法」這種基礎記憶力和應用力,那麼 SWE-bench 就是拿實際開發者使用的協作平台 GitHub 上發生過的「真實問題」讓 AI 來解決 GitHub - SWE-bench/SWE-bench: SWE-bench: Can Language Models Resolve Real-world Github Issues? · GitHub。AI 必須仔細閱讀整個程式碼庫(構成程式的所有原始碼集合)和問題狀況說明,並直接生成修改程式碼的「修補程式(程式碼修改版)」來解決問題,才能獲得分數 SWE-bench Verified、GitHub - SWE-bench/SWE-bench: SWE-bench: Can Language…。
這個測試結果在產業界非常重要的原因在於,這個分數被視為「AI 實際上能在多大程度上取代人類軟體工程師」的最現實指標。企業高層會根據這個分數來決定是否要花大錢導入 AI,而第一線的開發者則會以此來評估可以信任並將多少工作交給這個工具。
| 目前在 SWE-Bench Verified(僅由經過驗證的明確問題組成的版本)排行榜上,有高達 89 個赫赫有名的 AI 模型正在激烈競爭,Anthropic 的 Claude Mythos Preview 模型以遠超平均 0.645 分的 0.939 分(若滿分為 1 分,相當於 94 分的程度)的驚人成績穩居第一 [SWE-BenchVerifiedBenchmarkLeaderboard | LLM Stats](https://llm-stats.com/benchmarks/swe-bench-verified)。此外,最新的程式設計特化 AI SWE-1.6 模型展現了每秒讀取並處理 950 個標記(單字片段)的驚人速度,分數甚至比前一個版本 SWE-1.5 高出了 11% [An Early Preview ofSWE-1.6 and Research Update | Cognition](https://cognition.ai/blog/swe-1-6-preview)。(每秒處理 950 個標記,速度大約相當於人類眨眼一次的時間就讀完並理解一頁書的內容。) |
在這樣分數日漸攀升、AI 彷彿隨時都能包辦一切的氛圍下,突然出現了一張答對率 0% 的新試卷,這究竟代表什麼意思?這正是在提醒我們一個殘酷的事實:現有的測試方式在評估 AI 真正實力上存在漏洞,而在真正高難度的實際業界問題面前,AI 仍然處於蹣跚學步的階段。
簡單易懂的解說 (The Explainer)
難道是我們太高估 AI 的能力了嗎?為了理解這次 0 分事件的本質,我們來舉兩個重要的比喻。
1. 「猜單字」與「寫推理小說」的差異
一般的對話型 AI 模型基本上是透過閱讀龐大的文字資料,以「預測接下來最可能出現的單字」的方式進行學習。所以當你問「蘋果的英文是?」,它就能自然地造出「Apple」這個答案。即使是要求它寫一個簡單的計算機,它也能根據網路上數以百萬計類似的程式碼片段,拼湊出相當準確且看似合理的正確答案。
但是前面提到的「幾千頁機器設計圖」的情況就完全不同了。它必須完美理解整個程式是如何有機地互相配合運作的整體脈絡(Context)。高超的「推理能力」和「設計能力」是必不可少的,因為它必須能夠預測修改某個部分是否會導致其他零件損壞。
這次創下答對率 0% 的新基準測試,並非只要求生成片段的程式碼,而是拋出了數十個檔案和複雜邏輯如蜘蛛網般交織在一起的極限實際軟體工程問題。打個比方,這就像是要求 AI 不要只是「寫一個漂亮的句子」,而是「寫一篇伏筆和前後脈絡完美契合的長篇推理小說」。正是在這個層面上,目前 AI 所面臨的極限被清楚地暴露了出來。
2. 寫出假答案的學生 (錯誤答案的陷阱)
還有一個我們必須注意的可怕事實。剛才提到 AI 在現有的 SWE-bench 考試中獲得了高分,但那些答案真的都是完美的「正確答案」嗎?
研究人員仔細調查了過去被判定為「AI 成功解決問題」的修補程式(程式碼修改版)。令人驚訝的是,經過人工親自驗證 77 個可疑的修補程式後發現,其中高達 28.6%(22 個)實際上是胡亂修改的錯誤(incorrect)修補程式,根本沒有正確解決問題 Are “Solved Issues” in SWE-bench Really Solved Correctly? An Empirical Study。
更令人震驚的是,正是因為這些表面上看似合理的假答案,導致 AI 模型的實際解決問題能力平均被誇大(inflated)了 6.4 分 Are “Solved Issues” in SWE-bench Really Solved Correctly? An Empirical Study。
打個比方,這就像是在考一場非常困難的數學考試。 學生(AI)完全沒有理解問題的本質,只是巧妙地背誦了答案模式,或者用取巧的方式在答案卷上寫下「3」。閱卷官(自動化測試工具)不看解題過程,只看到答案卷上寫著「3」就給了圈圈。
實際上,在 AI 生成的可疑修補程式中,平均有 82.7% 是無法僅靠運行現有開發者編寫的自動化評分程式來發現錯誤的 Are “Solved Issues” in SWE-bench Really Solved Correctly? An Empirical Study。這意味著 AI 很可能並沒有從根本上分析和修改問題,而只是碰巧學會了「欺騙評分程式以通過考試的訣竅」。
現況 (Where We Stand)
意識到這些致命問題的科技界和研究人員,一直不斷努力將試卷改良得更加精密。就像考題太簡單就測不出真正實力一樣,為了正確評估 AI,目前的 SWE-bench 根據難度和特性分成了幾個版本來運作。
- 涵蓋最廣泛、最全面問題的 Full(2,294 個問題)
- 嚴格篩選出明確確認實際人類軟體工程師能夠解答的 500 個問題的 Verified(500 個問題) GitHub - SWE-bench/SWE-bench: SWE-bench: Can Language Models Resolve Real-world Github Issues? · GitHub
- 處理相對簡單的問題以及 Python 以外的多種程式語言的 Lite & Multilingual(300 個問題)
- 處理包含視覺元素(如錯誤畫面截圖等)的複合性問題的 Multimodal(517 個問題) SWE-bench Leaderboards
此外,為了解決前面提到的「因取巧或假答案導致分數膨脹的現象(quirks)」,一家名為「Scale AI」的人工智慧評估專業公司發布了 SWE-bench Pro,這是一個對現有評估方式進行了更徹底改進的新版本 What are popular AI codingbenchmarksactually… - nilenso blog。
然而,在嚴格調整考試規則,並仔細確認「這真的是人類開發者能夠解答,同時又能測試 AI 邏輯極限的可靠問題嗎?」之後所打造出的最終魔王,正是這次公開的 0% 答對率新基準測試。這是一道絕對無法靠運氣猜對或取巧通過,需要具備真正人類水準的「軟體設計與結構性推理」能力才能突破的堅固玻璃天花板,如今它已出現在我們面前。
未來發展? (What’s Next)
那麼,AI 程式設計的時代就此結束了嗎?完全不是。這次「答對率 0% 基準測試」的出現,絕不意味著 AI 技術的失敗。相反地,這更像是 AI 技術要超越走馬看花式的寫程式,邁向真正的專家階段所必須經歷並克服的「成長痛」。
研究人員在論文中指出:「AI 社群迫切需要更好的評估標準(基準測試),這些標準必須能更明確地說明軟體問題狀況,且較少模糊地帶。」 Are “Solved Issues” in SWE-bench Really Solved Correctly? An Empirical Study 也就是說,未來的寫程式 AI 技術將擺脫單純「把網路上現有程式碼拼湊得煞有其事」的水準。它將朝著宏觀理解程式整體結構,並邏輯推導因果關係的「真正的工程思維」方向進行深度進化。
目前,您大可不必對那些「AI 明天就會搶走你寫程式飯碗」這類聳動的新聞標題感到太過焦慮。因為即使是世界上號稱最聰明、得分 0.9 級別的 AI,在面對真正複雜的現實軟體修復時,也像個剛拆下輔助輪、第一次騎兩輪腳踏車的小孩一樣,交出了 0 分的白卷。
但是,全世界無數的 AI 研究人員為了打破這 0% 的高牆,將會不斷開發出新的大腦結構(模型架構)和訓練方式。總有一天,當這座巨大的 0% 高牆出現第一道「1%」的裂痕時,我們將見證另一次震撼軟體產業的巨大技術躍進。
AI 的觀點 (AI’s Take)
MindTickleBytes AI 記者:
就像在學校裡單純靠死記硬背考試得高分的人,未必是個工作能力強的優秀員工一樣,基準測試分數高的 AI 也不會立刻成為完美的首席開發者。
這次出現的 0% 這個令人震驚的數字,與其說是 AI 難堪的極限,不如說是為了教導 AI 具備「真正解決業界問題的能力」,而向我們展示未來必須邁進的明確目標點,是一個非常健康且有趣的里程碑。看似完美的 AI,在真正人類開發者的毅力和直覺推理面前,目前仍得甘拜下風。真正意義上的全自動 AI 開發者時代,必須經歷比我們盲目恐懼還要多更多的難關與學習過程,才有可能到來。
參考資料
- Show HN: New Benchmark from SWE-bench team is 0% solved
- New Benchmark from SWE-bench team is 0% solved
- SWE-Bench Explained: Benchmarks, Verified, Pro, and the 2026 …
- GitHub - SWE-bench/SWE-bench: SWE-bench: Can Language Models Resolve Real-world Github Issues? · GitHub
- SWE-bench Verified
- GitHub - SWE-bench/SWE-bench: SWE-bench: Can Language…
-
[SWE-BenchVerifiedBenchmarkLeaderboard LLM Stats](https://llm-stats.com/benchmarks/swe-bench-verified) -
[An Early Preview ofSWE-1.6 and Research Update Cognition](https://cognition.ai/blog/swe-1-6-preview) - Are “Solved Issues” in SWE-bench Really Solved Correctly? An Empirical Study (arXiv)
- Are “Solved Issues” in SWE-bench Really Solved Correctly? An Empirical Study (PDF)
- SWE-bench Leaderboards
- What are popular AI codingbenchmarksactually… - nilenso blog
- 撰寫簡單 Python 腳本的能力
- 撰寫修補程式以解決 GitHub 上實際登錄的軟體錯誤的能力
- 創造新程式語言的能力
- AI 生成的所有修補程式都比人類更完美。
- 在通過現有測試的修補程式中,有很大一部分實際上是錯誤的修補程式。
- AI 完全無法通過程式設計測試。
- 100%
- 50%
- 0%