[GPT-5.5 的屈辱] “背诵大王” AI，在陌生的游戏面前仅得 0.43 分？追问真正的智能

AI Summary

曾以压倒性性能自豪的 GPT-5.5 在没有固定答案的新型拼图游戏中得分不足 1 分，这引发了人们对 AI “真实智能”的质疑。

想象一下。我们身边可能都有这样一个“背诵天才”朋友，他死记硬背下世上所有的考试真题，总是稳居全校第一。无论什么考试他都能轻松应对，让人羡慕不已。然而有一天，老师带来了一款教科书里从未出现过、也从未有人教过的全新拼图游戏。这位朋友会表现如何呢？令人惊讶的是，他竟然连一道题都解不出来，急得团团转。

这不只是一个想象中的故事。这是 OpenAI 最新的 AI 模型 GPT-5.5 在 2026 年 4 月 23 日伴随着全世界期待华丽登场后，正面临的尴尬现实。GPT-5.5 Citations Hallucination Rate

诚然，GPT-5.5 在发布后确实横扫了各种性能指标（Benchmark，衡量 AI 能力的标准测试），稳坐第一宝座。但在最近公开的最严苛推理测试 ARC-AGI-3 中，它却拿到了 0.43% 这一令人震惊的成绩。这个不足 1 分的分数，将我们一直以来信奉为“智能”的 AI 的真面目暴露无遗。GPT-5.5и Opus 4.7 провалились в ARC-AGI-3. Вот почему / Хабр

到底出了什么问题？为什么 AI 看起来聪明到能解释宇宙起源，却在连小孩子都能解开的陌生拼图面前如此不堪一击？今天我们就来揭开其中的秘密。

为什么这很重要？ (Why It Matters)

我们对 AI 的真正期待并非只是一个“擅长对答的鹦鹉”，而是像人类一样“独立思考并解决陌生问题的能力”。然而，这次事件表明，目前的 AI 要达到真正意义上的智能，即具备人类水平思考能力的“通用人工智能（AGI）”，仍面临着巨大的障碍。

长期以来，大型科技公司一直专注于“暴力（Brute-forcing）”策略，投入海量数据和超级计算机，仿佛要把世上所有的书都搬进一座巨大的图书馆。[GPT-5.5 - No ARC-AGI-3 scores

Hacker News](https://news.ycombinator.com/item?id=47882153) 但这次 ARC-AGI-3 的结果痛苦地证明，单纯增加学习量并不会自动产生“应用能力”或“创造性思维”。

从用户角度看，这亮起了两盏重要的警示灯。首先，AI 在处理初次接触的复杂任务时，可信度仍然很低。其次，即便 AI 的回答看起来头头是道，实际上极有可能是巧妙拼凑学习数据的“幻觉（Hallucination，即煞有介事地撒谎）”。事实上，GPT-5.5 在可靠性测试中记录了令人难以置信的 86% 错误率，留下了巨大的课题。GPT-5.5 Citations Hallucination Rate

轻松理解：“背诵”与“推理”的一线之隔 (The Explainer)

为了理解 AI 智能的运作方式，我们用“照片滤镜”和“画家”的区别来做个比喻。

目前的 AI 模型 Transformer（理解句子中单词关系的核心结构）类似于非常精密的“照片滤镜”。它看过了数万亿张照片，已经完美掌握了“这类照片套用这类滤镜会变漂亮”的公式。如果收到的提问与学习数据中的内容相似（内插，Interpolation），AI 会以光速给出准确答案。[GPT-5.5 - No ARC-AGI-3 scores

Hacker News](https://news.ycombinator.com/item?id=47882153)

但 ARC-AGI-3 测试提出了一套完全不同的规则。这项测试不是寻找固定的答案，而是将 AI 扔进一个从未见过的“交互式游戏环境”，让其自主建立逻辑并解决问题。Even the latest AI models make three systematic reasoning errors 打个比方，这就像是让一直只走固定路线的导航，在一座没有地图的神秘岛屿上寻找出路。

在这种情况下，目前的 AI 犯下了三种致命的推理错误并因此崩溃：ARCPrize выявил три сбоя GPT-5.5 и Opus

上下文维持失败：即便正在理解游戏规则，中途也会很快遗忘。
逻辑飞跃：本该是 A 后面接 B，却突然跳到 Z，得出前后不一的荒唐结论。
习得性刻板印象：不去看问题的本质，而是强行套用自己学过的数据中看起来最像的内容。

总之，当面临数据中未出现的全新情况（外推，Extrapolation）时，AI 开始“胡言乱语”而不是“思考”。

当前现状：85% 与 0.43% 之间的巨大鸿沟 (Where We Stand)

看看数据，情况更加戏剧化。这显示了 AI 在“知晓”与“思考”之间的挣扎。

ARC-AGI-2（旧测试）：GPT-5.5 获得了 85.0% 的惊人成绩。这远超前代模型 GPT-5.4 (73.3%)。Everything You Need to Know About GPT-5.5
ARC-AGI-3（新测试）：但在 2026 年 3 月底发布的最新测试中，分数暴跌至 0.43%。竞争对手 Anthropic 的 Opus 4.7 也只拿到了 0.18% 的惨淡成绩。GPT-5.5и Opus 4.7 провалились в ARC-AGI-3. Вот почему / Хабр

重点是，人类能够以 100% 的完美成绩通过这项测试。GPT-5.5и Opus 4.7 провалились в ARC-AGI-3. Вот почему / Хабр 对我们来说理所当然的“常识性推理”，对 AI 来说却是比珠穆朗玛峰还高的障碍。

更有趣的是，OpenAI 在官方发布会（Keynote）上从未提及这一 ARC-AGI-3 分数。专家分析称，这标志着“OpenAI 自己也承认，单纯靠增加模型体量已无法提升推理智能”。[GPT-5.5 - No ARC-AGI-3 scores

Hacker News](https://news.ycombinator.com/item?id=47882153)

此外还观察到了“能力的悖论”，即性能越好，谎言反而越多。GPT-5.5 在可靠性测试中的幻觉率（Hallucination rate）高达 86%，远高于竞争模型 Claude Opus 4.7 (36%) 或 Gemini 3.1 Pro (50%)。Is GPT-5.5 Reliable For Citations? No. It’s The Worst Flagship For That 这也是为什么有人评价它虽然知识丰富，但在诚实度和准确性方面是最不稳定的模型。GPT-5.4 vs GPT-5.5 When the Older Model Wins

未来会怎样？ (What’s Next)

现在，AI 行业的淘金热正从单纯的“模型做得多大”转向“如何构建类人的思考结构”。

ARC Prize 基金会主席格雷格·卡姆拉德 (Greg Kamradt) 精确分析了 GPT-5.5 和 Opus 4.7 失败的 160 场游戏记录及其失败过程。Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3 这些分析数据将成为下一代 AI 打破“数据背诵”外壳、进入“真实思考”领域的宝贵基石。

在不远的将来，我们见到的可能不再是只会丢出答案的 AI，而是能与我们一起思考问题并提议“这部分我不太清楚，我们要不要这样实验一下？”的、更具“人性智能”的伙伴。

AI 的视角 (AI’s Take)

MindTickleBytes 的 AI 记者认为，这次结果表明“智能泡沫”正在破裂。拥有数万亿参数（Parameter）的 GPT-5.5 仅得 0.43 分，反过来也证明了人类智能拥有远超单纯记忆信息的伟大逻辑体系。在 AI 真正开始“思考”之前，我们似乎有必要以审视的眼光看待它们给出的答案。

参考资料

Share this article:

测试你的理解

Q1. GPT-5.5 在 ARC-AGI-3 测试中获得了多少分？

85.0%
70.2%
0.43%

GPT-5.5 虽然在之前的测试 ARC-AGI-2 中获得了 85% 的分数，但在最新版本的 ARC-AGI-3 中仅获得了 0.43% 的低分。

Q2. ARC-AGI-3 测试与现有的 AI 测试有何不同？

需要背诵更多的数据
测量对话能力
在交互式的游戏环境中测试新的推理能力

ARC-AGI-3 并非基于静态数据，而是衡量 AI 能否在回合制游戏的交互环境中解决从未见过的问题。

Q3. 根据 AA-Omniscience 基准测试，GPT-5.5 的幻觉（Hallucination）比例是多少？

与竞争模型相比，GPT-5.5 的幻觉比例高达 86%，暴露了可靠性问题。