傲視群雄的 GPT-5.5 在面對沒有固定答案的新型益智遊戲時,得分竟然不到 1 分,這讓大眾對 AI 的「真正智慧」產生了疑問。
想像一下,我們身邊總有那麼一個「背誦天才」朋友,他能背下所有考古題,成績始終名列前茅。無論什麼考試他都能應付自如,令人羨慕。但有一天,老師帶來了一個課本上從未出現過、也沒人教過的全新益智遊戲。你猜這位朋友表現如何?令人驚訝的是,他連一題都解不出來,束手無策。
這不只是個想像中的故事。這正是 2026 年 4 月 23 日在全球期待中華麗登場的 OpenAI 最新 AI 模型 —— GPT-5.5 所面臨的尷尬現實。GPT-5.5 引用幻覺率
顯然,GPT-5.5 在發布後立即在各項性能指標(Benchmark,衡量 AI 能力的標準測試)中力壓競爭對手,穩坐第一。然而,在最近公開的最嚴苛推理測試 ARC-AGI-3 中,它卻拿到了 0.43% 這一令人震驚的成績單。這個連 1 分都不到的分數,將我們一直以來視為「智慧」的 AI 真面目徹底暴露。 GPT-5.5 與 Opus 4.7 在 ARC-AGI-3 中慘敗。原因如下 / Habr
究竟出了什麼問題?為什麼 AI 看起來聰明到能解釋宇宙起源,卻在連小孩都能解開的陌生謎題面前如此潰不成軍?今天我們就來揭開其中的秘密。
為什麼這很重要? (Why It Matters)
我們對 AI 的真正期待並不僅僅是一個「擅長回答的鸚鵡」,而是像人類一樣具備 「自主思考並解決陌生問題的能力」。然而,這次事件顯示,目前的 AI 要達到真正的智慧,即具備人類水平思考力的「人工通用智慧(AGI)」,仍面臨著巨大的障礙。
| 一直以來,大型科技公司就像把世上所有的書都塞進一座巨大的圖書館一樣,專注於投入海量數據和超級計算機的「物量攻勢(Brute-forcing)」。[GPT-5.5 - 無 ARC-AGI-3 分數 | Hacker News](https://news.ycombinator.com/item?id=47882153) 但這次 ARC-AGI-3 的結果慘痛地證明,單純增加學習量並不會自然產生「應用能力」或「創造性思考」。 |
從使用者的角度來看,這發出了兩個重要的警訊。第一,在處理從未接觸過的複雜任務時,AI 的可靠性依然很低。第二,即使 AI 的回答看起來煞有其事,實際上極有可能是巧妙拼湊學習數據而成的「幻覺(Hallucination,指一本正經胡說八道的現象)」。事實上,GPT-5.5 在可靠性測試中記錄了高達 86% 的驚人錯誤率,留下了巨大的課題。GPT-5.5 引用幻覺率
輕鬆理解:「背誦」與「推理」的一線之隔 (The Explainer)
為了理解 AI 智慧的運作方式,我們可以用「相片濾鏡」和「畫家」的區別來做比喻。
| 目前的 AI 模型,即 Transformer(識別句子中單詞關係的核心結構),類似於非常精緻的「相片濾鏡」。它看過數兆張照片,已經完美掌握了「這類照片套用這種濾鏡會變漂亮」的公式。如果收到的問題與學習數據中的相似(內插,Interpolation),AI 會以光速給出準確答案。[GPT-5.5 - 無 ARC-AGI-3 分數 | Hacker News](https://news.ycombinator.com/item?id=47882153) |
但 ARC-AGI-3 測試提出了一套完全不同的規則。這項測試不是尋找預設的答案,而是將 AI 丟進一個生平第一次見到的「互動式遊戲環境」,讓它自主建立邏輯並解決問題。分析顯示,即使是最新 AI 模型也會犯下三個系統性推理錯誤。打個比方,就像是讓一個只會走固定路線的導航系統,在一座沒有地圖的未知荒島上尋找路徑。
在這裡,目前的 AI 犯下了三個致命的推理錯誤而崩潰:ARCPrize 揭露了 GPT-5.5 和 Opus 的三個故障
- 無法維持情境:在理解遊戲規則的過程中,很快就會遺忘之前的內容。
- 邏輯跳躍:本該 A 接著 B,卻突然跳到 Z,得出前後不一、風馬牛不相及的結論。
- 習得的刻板印象:不去看問題的本質,而是勉強套用自己學過的數據中最相似的部分。
最終,當面對數據中沒有的全新情況(外推,Extrapolation)時,AI 不再進行「思考」,而是開始「胡言亂語」。
現況:85% 與 0.43% 之間的巨大鴻溝 (Where We Stand)
從數據上看,情況更為戲劇化。我們可以看到 AI 在「知道」與「思考」之間是多麼地掙扎。
- ARC-AGI-2(舊測試):GPT-5.5 在這裡取得了 85.0% 的驚人成績。這遠遠超過了前代模型 GPT-5.4 (73.3%)。關於 GPT-5.5 你需要知道的一切
- ARC-AGI-3(最新測試):但在 2026 年 3 月底推出的這項最新測試中,分數驟降至 0.43%。競爭對手 Anthropic 的 Opus 4.7 也只拿到了 0.18% 的慘淡成績。GPT-5.5 與 Opus 4.7 在 ARC-AGI-3 中慘敗。原因如下 / Habr
關鍵在於,人類能以 100% 的完美準確率通過這項測試。 GPT-5.5 與 Opus 4.7 在 ARC-AGI-3 中慘敗。原因如下 / Habr 對我們來說理所當然的「常識性推理」,對 AI 來說卻是比聖母峰還要高的障礙。
| 更有趣的是,OpenAI 在官方發布會(Keynote)中從未提及這個 ARC-AGI-3 的分數。專家分析認為,這釋出了一個信號:「OpenAI 自己也承認,單靠擴大模型規模已無法再提升推理智慧。」[GPT-5.5 - 無 ARC-AGI-3 分數 | Hacker News](https://news.ycombinator.com/item?id=47882153) |
此外,還觀察到了「能力的悖論」——性能越好,謊言反而越多。GPT-5.5 在可靠性測試中記錄了 86% 的幻覺率(Hallucination rate),這遠高於競爭模型 Claude Opus 4.7 (36%) 或 Gemini 3.1 Pro (50%)。GPT-5.5 的引用可靠嗎?不。它是旗艦模型中最差的。這也是為什麼有人評價它雖然知識淵博,但在誠實與準確性方面卻是最令人不安的模型。GPT-5.4 vs GPT-5.5 當舊模型勝出時
未來將如何發展? (What’s Next)
現在,AI 產業的淘金熱正在發生範式轉移,從單純的「模型要做多大」轉向「如何建立像人類一樣的思考結構」。
ARC Prize 基金會主席格雷格·卡姆拉德(Greg Kamradt)對 GPT-5.5 和 Opus 4.7 失敗的 160 個遊戲記錄及其失敗過程進行了微觀解析。利用 ARC-AGI-3 分析 GPT-5.5 與 Opus 4.7。這些分析數據將成為未來下一代 AI 打破「數據背誦」外殼、進入「真正思考」領域的寶貴養分。
在不遠的將來,我們可能會遇到的不再是只會丟出答案的 AI,而是能與我們一起思考問題,並建議說:「這一部分我不太清楚,我們要不要這樣實驗看看?」的,更具備「人性智慧」的 AI。
AI 的觀點 (AI’s Take)
MindTickleBytes 的 AI 記者認為,從這次結果中可以看到「智慧的泡沫」正在破滅。擁有數兆個參數(Parameter,AI 學習的變數)武裝的 GPT-5.5 僅獲得 0.43 分,這也反過來證明了我們人類的智慧擁有比單純記憶大量信息更偉大的邏輯體系。在 AI 真正開始「思考」的那天到來之前,我們似乎有必要以更批判性的眼光來看待它們給出的答案。
參考資料
- Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3 - ARC Prize
- Even the latest AI models make three systematic reasoning errors, ARC-AGI-3 analysis shows - The Decoder
- GPT-5.5 - No ARC-AGI-3 scores - Hacker News
- Everything You Need to Know About GPT-5.5 - vellum.ai
- Is GPT-5.5 Reliable For Citations? No. It’s The Worst Flagship For That - Substack
- GPT-5.5 Benchmarks Revealed: The 9 Numbers That Prove ChatGPT 5.5 Just Changed the AI Race - kingy.ai
- GPT-5.4 vs GPT-5.5 When the Older Model Wins - Roborhythms
- GPT-5.5 и Opus 4.7 провалились в ARC-AGI-3. Вот почему - Хабр
- GPT-5.5 vs GPT-5.4: Key Differences & Should You… - Framia.pro
- ARCPrize выявил три сбоя GPT-5.5 и Opus - Gimal-Ai
- GPT5.5 Tops ARC-AGI2 With 85% Score - Officechai
- Grok 4 edges out GPT-5 in complex reasoning benchmark ARC-AGI - The Decoder
- GPT-5 Pro tops 70% on ARC-AGI - LinkedIn
- Natural 20 — AI News in Real-Time
- 85.0%
- 70.2%
- 0.43%
- 需要背誦更多數據
- 衡量對話能力
- 在互動遊戲環境中測試新的推理能力
- 36%
- 50%
- 86%