AI的“真”实力该如何衡量？只看标准答案的时代已经结束了

AI Summary

告别只顾死记硬背标准答案的传统 AI 评估方式，通过策略游戏衡量 AI 真正的问题解决能力的新时代正在开启。

考试分数高就代表真的聪明吗？

想象一下，你身边有一个朋友，每次考试都能得 100 分。但是，当你问他“今天午饭吃什么好？”或者“突然下雨了该怎么办？”这类极其日常、需要灵活思考的问题时，他却无法给出合理的回答。

我们真的能说这个朋友“很聪明”吗？恐怕你会怀疑：“他是不是只会死记硬背考试题目和标准答案？”

如今的人工智能（AI）世界正面临着同样的处境。一直以来，我们通过基准测试（Benchmark，衡量 AI 性能的标准试卷）这一工具来给 AI 的聪明程度打分。但最近，专家们纷纷表示：“不能再盲目相信这些考试分数了。”根据一些研究人员正在重新思考如何衡量 AI 智能的观点，现有的主流评估方式往往无法展示 AI 的真实水平，反而很容易被巧妙地利用或“操纵（Game，为了刷分而钻空子）”。 [Source 6]

这为什么很重要？

我们之所以要准确衡量 AI 的实力，并不只是为了给它们排座次。

首先，是为了安全。如果我们高估了 AI 的能力并赋予其过于艰巨的任务，或者相反，因为低估而忽视了潜在的风险，都可能导致意想不到的事故。这正是美国国家标准与技术研究院 (NIST) 致力于改进 AI 测量科学和标准，并专注于“基于风险的方法”的原因。 [人工智能

NIST](https://www.nist.gov/artificial-intelligence) [Source 10]

其次，是为了甄别真正的创新。根据《2025 年人工智能指数报告》(AI Index Report 2025)，AI 的影响力已经深度渗透到我们的社会、经济以及全球治理的方方面面。 PDF 2025 年人工智能指数报告 [Source 16] 判别这项如此重要的技术是否拥有“真实”智能，还是仅仅是一个擅长模仿过去数据的“复读机”，是决定我们未来的核心问题。

轻松理解：从“笔试”向“足球赛”的转变

到目前为止，AI 评估更像是“选择题测试”。有一个固定的标准答案，如果 AI 答对了，就给分。但 Google DeepMind 想要彻底改变这一范式。他们给出的答案正是“Kaggle 游戏竞技场 (Kaggle Game Arena)”。重新思考我们如何衡量 AI 智能 [Source 1]

打个比方，这就像是“走出笔试考场，到操场上亲自踢一场足球赛”。

1. 1:1 巅峰对决 (Head-to-Head)

传统方式是独自坐在安静的房间里解决固定的题目，而在 Kaggle 游戏竞技场中，AI 模型之间会直接进行较量。它们必须通过策略游戏读取对手的招式并实时做出反应。这不仅要求博学，更要求为了战胜对手而开动“脑筋”。重新思考我们如何衡量 AI 智能 - ONMINE [Source 4]

2. 没有标准答案的“动态”测量

就像在足球比赛中无法预知对手的动作一样，这个平台上的对决是非常动态的。简单来说，预先背诵答案是不可能的。只有根据实际情况发挥自己的智能才能获得胜利，这让 AI 的能力测量变得更加可验证且生动。重新思考我们如何衡量 AI 智能 [Source 7]

3. “策略”与“资源管理”

这不仅仅是罗列漂亮句子的能力。它观察的是在进行策略游戏时，为了达成目标而管理有限资源并制定长期计划的过程。这象征着 Google DeepMind 提议的 AI 基准测试的“根本性转变 (Radical Shift)”。 DeepMind 提议 AI 智能基准测试的根本性转变 [Source 17]

现状：人类 IQ 测试已沦为“小学生”试卷？

我们经常会看到“某 AI 的 IQ 超过 150”这类标题党新闻。但进入 2025 年后，这种简单的比较已经失去了意义。对于 GPT-4o 或 Gemini 1.5 等最新的 AI 系统来说，传统的人类 IQ 测试已不再是衡量其高级认知能力的合适标准。重新思考 AI 智能测量：为什么 IQ 测试对 AI 来说已力不从心… [Source 15]

此外，我们通常认为 AI 正朝着通用人工智能 (AGI，拥有与人类同等或更高智能的 AI) 这一单一终点线列队奔跑。但专家大卫·佩雷拉 (David Pereira) 指出，这种想法是错误的。智能沿着单一维度（从窄 AI 到通用智能的直线路径）运作的假设本身已经遇到了瓶颈。为什么 “AGI” 不再是一个有用的指标：重新思考我们如何衡量 AI… [Source 2]

形象地说，智能并不是像“身高几厘米”那样可以用一个数字排队的东西，而是一种“在各种环境下灵活解决复杂问题”的立体能力。

未来会如何？

专家们现在正在思考超越“模仿游戏 (Imitation Game)”的新型智能测量方法。不仅关注模仿人类的逼真程度，更在探索真实智能是如何表现的，并试图建立新的理论。 [超越模仿游戏：重新思考我们如何衡量通用智能

Springer Nature 研究社区](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence) [Source 9]

此外，正如康奈尔大学研讨会上讨论的那样，衡量信息复杂性的新标准（如从 Entropy 向 Epiplexity 的转变等）正在被引入。这是在尝试测量 AI 所拥有的“智能密度”，而非简单的“知识量”。 AI-MI 研讨会系列：从 Entropy 到 Epiplexity - 重新思考计算受限智能的信息 - 人工智能材料研究所 [Source 11]

最终，未来的 AI 将不再根据“它知道什么”来评价，而是根据“它如何在变化的环境中解决问题并进行策略性思考”来接受评估。

MindTickleBytes AI 记者的视角

一直以来，我们或许过于热衷于 AI 的“成绩单”了。相比于得到 100 分的结果，AI 是如何得出那个结论的，以及在面对突发变量时表现出怎样的灵活性，在当今时代变得重要得多。

像 Kaggle 游戏竞技场这样的尝试，是将 AI 视为能够与我们共同生活的“智能伙伴”而非单纯的计算器，并以此进行评估的第一步。因为真正的智能，往往在没有标准答案的世界里才能得到证明。现在我们问 AI：“除了考试题，你准备好和我们一起应对这个复杂的世界了吗？”

参考资料

[超越模仿游戏：重新思考我们如何衡量通用智能

Springer Nature 研究社区](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence)

[人工智能 NIST](https://www.nist.gov/artificial-intelligence)
AI-MI 研讨会系列：从 Entropy 到 Epiplexity - 重新思考计算受限智能的信息 - 人工智能材料研究所
重新思考我们如何衡量 AI 智能 - Robotics.ee
重新思考 AI 智能测量：为什么 IQ 测试对 AI 来说已力不从心…
PDF 2025 年人工智能指数报告
DeepMind 提议 AI 智能基准测试的根本性转变

Share this article:

测试你的理解

Q1. 现有 AI 性能衡量方式（基准测试）受到批评的主要原因是什么？

测量成本太高
题目变得太简单或太容易被操纵
AI 读不懂题目

专家指出，目前流行的基准测试往往不切实际，或者太容易被“操纵（game）”。

Q2. Google DeepMind 推出的新 AI 性能衡量平台叫什么名字？

Kaggle 游戏竞技场
AI 奥运会
DeepMind 国际象棋

Google DeepMind 引入了“Kaggle 游戏竞技场 (Kaggle Game Arena)”，让 AI 模型通过策略游戏直接对战。

Q3. 在 AI 智能衡量中，传统人类 IQ 测试的局限性是什么？

只有人类才能看的试卷
难以准确衡量 2025 年最新 AI 系统的能力
AI 讨厌数字

对于 GPT-4o 或 Gemini 1.5 等最新 AI 系统，传统的 IQ 测试已不再是有效的衡量标准。