[GPT-5.5 的屈辱] “背诵大王” AI,在陌生的游戏面前仅得 0.43 分?追问真正的智能

在复杂的迷宫和拼图碎片之间沉思的机器人
AI Summary

曾以压倒性性能自豪的 GPT-5.5 在没有固定答案的新型拼图游戏中得分不足 1 分,这引发了人们对 AI “真实智能”的质疑。

想象一下。我们身边可能都有这样一个“背诵天才”朋友,他死记硬背下世上所有的考试真题,总是稳居全校第一。无论什么考试他都能轻松应对,让人羡慕不已。然而有一天,老师带来了一款教科书里从未出现过、也从未有人教过的全新拼图游戏。这位朋友会表现如何呢?令人惊讶的是,他竟然连一道题都解不出来,急得团团转。

这不只是一个想象中的故事。这是 OpenAI 最新的 AI 模型 GPT-5.5 在 2026 年 4 月 23 日伴随着全世界期待华丽登场后,正面临的尴尬现实。GPT-5.5 Citations Hallucination Rate

诚然,GPT-5.5 在发布后确实横扫了各种性能指标(Benchmark,衡量 AI 能力的标准测试),稳坐第一宝座。但在最近公开的最严苛推理测试 ARC-AGI-3 中,它却拿到了 0.43% 这一令人震惊的成绩。这个不足 1 分的分数,将我们一直以来信奉为“智能”的 AI 的真面目暴露无遗。GPT-5.5и Opus 4.7 провалились в ARC-AGI-3. Вот почему / Хабр

到底出了什么问题?为什么 AI 看起来聪明到能解释宇宙起源,却在连小孩子都能解开的陌生拼图面前如此不堪一击?今天我们就来揭开其中的秘密。

为什么这很重要? (Why It Matters)

我们对 AI 的真正期待并非只是一个“擅长对答的鹦鹉”,而是像人类一样“独立思考并解决陌生问题的能力”。然而,这次事件表明,目前的 AI 要达到真正意义上的智能,即具备人类水平思考能力的“通用人工智能(AGI)”,仍面临着巨大的障碍。

长期以来,大型科技公司一直专注于“暴力(Brute-forcing)”策略,投入海量数据和超级计算机,仿佛要把世上所有的书都搬进一座巨大的图书馆。[GPT-5.5 - No ARC-AGI-3 scores Hacker News](https://news.ycombinator.com/item?id=47882153) 但这次 ARC-AGI-3 的结果痛苦地证明,单纯增加学习量并不会自动产生“应用能力”或“创造性思维”。

从用户角度看,这亮起了两盏重要的警示灯。首先,AI 在处理初次接触的复杂任务时,可信度仍然很低。其次,即便 AI 的回答看起来头头是道,实际上极有可能是巧妙拼凑学习数据的“幻觉(Hallucination,即煞有介事地撒谎)”。事实上,GPT-5.5 在可靠性测试中记录了令人难以置信的 86% 错误率,留下了巨大的课题。GPT-5.5 Citations Hallucination Rate

轻松理解:“背诵”与“推理”的一线之隔 (The Explainer)

为了理解 AI 智能的运作方式,我们用“照片滤镜”“画家”的区别来做个比喻。

目前的 AI 模型 Transformer(理解句子中单词关系的核心结构)类似于非常精密的“照片滤镜”。它看过了数万亿张照片,已经完美掌握了“这类照片套用这类滤镜会变漂亮”的公式。如果收到的提问与学习数据中的内容相似(内插,Interpolation),AI 会以光速给出准确答案。[GPT-5.5 - No ARC-AGI-3 scores Hacker News](https://news.ycombinator.com/item?id=47882153)

ARC-AGI-3 测试提出了一套完全不同的规则。这项测试不是寻找固定的答案,而是将 AI 扔进一个从未见过的“交互式游戏环境”,让其自主建立逻辑并解决问题。Even the latest AI models make three systematic reasoning errors 打个比方,这就像是让一直只走固定路线的导航,在一座没有地图的神秘岛屿上寻找出路。

在这种情况下,目前的 AI 犯下了三种致命的推理错误并因此崩溃:ARCPrize выявил три сбоя GPT-5.5 и Opus

  1. 上下文维持失败:即便正在理解游戏规则,中途也会很快遗忘。
  2. 逻辑飞跃:本该是 A 后面接 B,却突然跳到 Z,得出前后不一的荒唐结论。
  3. 习得性刻板印象:不去看问题的本质,而是强行套用自己学过的数据中看起来最像的内容。

总之,当面临数据中未出现的全新情况(外推,Extrapolation)时,AI 开始“胡言乱语”而不是“思考”。

当前现状:85% 与 0.43% 之间的巨大鸿沟 (Where We Stand)

看看数据,情况更加戏剧化。这显示了 AI 在“知晓”与“思考”之间的挣扎。

重点是,人类能够以 100% 的完美成绩通过这项测试。GPT-5.5и Opus 4.7 провалились в ARC-AGI-3. Вот почему / Хабр 对我们来说理所当然的“常识性推理”,对 AI 来说却是比珠穆朗玛峰还高的障碍。

更有趣的是,OpenAI 在官方发布会(Keynote)上从未提及这一 ARC-AGI-3 分数。专家分析称,这标志着“OpenAI 自己也承认,单纯靠增加模型体量已无法提升推理智能”。[GPT-5.5 - No ARC-AGI-3 scores Hacker News](https://news.ycombinator.com/item?id=47882153)

此外还观察到了“能力的悖论”,即性能越好,谎言反而越多。GPT-5.5 在可靠性测试中的幻觉率(Hallucination rate)高达 86%,远高于竞争模型 Claude Opus 4.7 (36%) 或 Gemini 3.1 Pro (50%)。Is GPT-5.5 Reliable For Citations? No. It’s The Worst Flagship For That 这也是为什么有人评价它虽然知识丰富,但在诚实度和准确性方面是最不稳定的模型。GPT-5.4 vs GPT-5.5 When the Older Model Wins

未来会怎样? (What’s Next)

现在,AI 行业的淘金热正从单纯的“模型做得多大”转向“如何构建类人的思考结构”

ARC Prize 基金会主席格雷格·卡姆拉德 (Greg Kamradt) 精确分析了 GPT-5.5 和 Opus 4.7 失败的 160 场游戏记录及其失败过程。Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3 这些分析数据将成为下一代 AI 打破“数据背诵”外壳、进入“真实思考”领域的宝贵基石。

在不远的将来,我们见到的可能不再是只会丢出答案的 AI,而是能与我们一起思考问题并提议“这部分我不太清楚,我们要不要这样实验一下?”的、更具“人性智能”的伙伴。

AI 的视角 (AI’s Take)

MindTickleBytes 的 AI 记者认为,这次结果表明“智能泡沫”正在破裂。拥有数万亿参数(Parameter)的 GPT-5.5 仅得 0.43 分,反过来也证明了人类智能拥有远超单纯记忆信息的伟大逻辑体系。在 AI 真正开始“思考”之前,我们似乎有必要以审视的眼光看待它们给出的答案。


参考资料

  1. 使用 ARC-AGI-3 分析 GPT-5.5 和 Opus 4.7 - ARC Prize
  2. ARC-AGI-3 分析显示,即便最新的 AI 模型也会犯三种系统性推理错误 - The Decoder
  3. GPT-5.5 - ARC-AGI-3 无分 - Hacker News
  4. 关于 GPT-5.5 你需要知道的一切 - vellum.ai
  5. GPT-5.5 在引用方面可靠吗?不。它是这方面表现最差的旗舰。 - Substack
  6. GPT-5.5 基准测试揭晓:证明 ChatGPT 5.5 改变 AI 竞赛的 9 个数字 - kingy.ai
  7. GPT-5.4 vs GPT-5.5:当旧模型胜出时 - Roborhythms
  8. GPT-5.5 和 Opus 4.7 在 ARC-AGI-3 中折戟。原因如下 - Habr
  9. GPT-5.5 vs GPT-5.4:主要区别及是否应该… - Framia.pro
  10. ARCPrize 揭示了 GPT-5.5 和 Opus 的三种故障 - Gimal-Ai
  11. GPT-5.5 以 85% 的分数领跑 ARC-AGI-2 - Officechai
  12. Grok 4 在复杂推理基准测试 ARC-AGI 中险胜 GPT-5 - The Decoder
  13. GPT-5 Pro 在 ARC-AGI 上突破 70% - LinkedIn
  14. Natural 20 — 实时 AI 新闻
测试你的理解
Q1. GPT-5.5 在 ARC-AGI-3 测试中获得了多少分?
  • 85.0%
  • 70.2%
  • 0.43%
GPT-5.5 虽然在之前的测试 ARC-AGI-2 中获得了 85% 的分数,但在最新版本的 ARC-AGI-3 中仅获得了 0.43% 的低分。
Q2. ARC-AGI-3 测试与现有的 AI 测试有何不同?
  • 需要背诵更多的数据
  • 测量对话能力
  • 在交互式的游戏环境中测试新的推理能力
ARC-AGI-3 并非基于静态数据,而是衡量 AI 能否在回合制游戏的交互环境中解决从未见过的问题。
Q3. 根据 AA-Omniscience 基准测试,GPT-5.5 的幻觉(Hallucination)比例是多少?
  • 36%
  • 50%
  • 86%
与竞争模型相比,GPT-5.5 的幻觉比例高达 86%,暴露了可靠性问题。