AI的“真”实力该如何衡量?只看标准答案的时代已经结束了

棋盘上散发着不同光芒的两个 AI 模型正在进行策略较量
AI Summary

告别只顾死记硬背标准答案的传统 AI 评估方式,通过策略游戏衡量 AI 真正的问题解决能力的新时代正在开启。

考试分数高就代表真的聪明吗?

想象一下,你身边有一个朋友,每次考试都能得 100 分。但是,当你问他“今天午饭吃什么好?”或者“突然下雨了该怎么办?”这类极其日常、需要灵活思考的问题时,他却无法给出合理的回答。

我们真的能说这个朋友“很聪明”吗?恐怕你会怀疑:“他是不是只会死记硬背考试题目和标准答案?”

如今的人工智能(AI)世界正面临着同样的处境。一直以来,我们通过基准测试(Benchmark,衡量 AI 性能的标准试卷)这一工具来给 AI 的聪明程度打分。但最近,专家们纷纷表示:“不能再盲目相信这些考试分数了。”根据一些研究人员正在重新思考如何衡量 AI 智能的观点,现有的主流评估方式往往无法展示 AI 的真实水平,反而很容易被巧妙地利用或“操纵(Game,为了刷分而钻空子)”。 [Source 6]

这为什么很重要?

我们之所以要准确衡量 AI 的实力,并不只是为了给它们排座次。

首先,是为了安全。如果我们高估了 AI 的能力并赋予其过于艰巨的任务,或者相反,因为低估而忽视了潜在的风险,都可能导致意想不到的事故。这正是美国国家标准与技术研究院 (NIST) 致力于改进 AI 测量科学和标准,并专注于“基于风险的方法”的原因。 [人工智能 NIST](https://www.nist.gov/artificial-intelligence) [Source 10]

其次,是为了甄别真正的创新。根据《2025 年人工智能指数报告》(AI Index Report 2025),AI 的影响力已经深度渗透到我们的社会、经济以及全球治理的方方面面。 PDF 2025 年人工智能指数报告 [Source 16] 判别这项如此重要的技术是否拥有“真实”智能,还是仅仅是一个擅长模仿过去数据的“复读机”,是决定我们未来的核心问题。

轻松理解:从“笔试”向“足球赛”的转变

到目前为止,AI 评估更像是“选择题测试”。有一个固定的标准答案,如果 AI 答对了,就给分。但 Google DeepMind 想要彻底改变这一范式。他们给出的答案正是“Kaggle 游戏竞技场 (Kaggle Game Arena)”重新思考我们如何衡量 AI 智能 [Source 1]

打个比方,这就像是“走出笔试考场,到操场上亲自踢一场足球赛”

1. 1:1 巅峰对决 (Head-to-Head)

传统方式是独自坐在安静的房间里解决固定的题目,而在 Kaggle 游戏竞技场中,AI 模型之间会直接进行较量。它们必须通过策略游戏读取对手的招式并实时做出反应。这不仅要求博学,更要求为了战胜对手而开动“脑筋”。 重新思考我们如何衡量 AI 智能 - ONMINE [Source 4]

2. 没有标准答案的“动态”测量

就像在足球比赛中无法预知对手的动作一样,这个平台上的对决是非常动态的。简单来说,预先背诵答案是不可能的。只有根据实际情况发挥自己的智能才能获得胜利,这让 AI 的能力测量变得更加可验证且生动。 重新思考我们如何衡量 AI 智能 [Source 7]

3. “策略”与“资源管理”

这不仅仅是罗列漂亮句子的能力。它观察的是在进行策略游戏时,为了达成目标而管理有限资源并制定长期计划的过程。这象征着 Google DeepMind 提议的 AI 基准测试的“根本性转变 (Radical Shift)”。 DeepMind 提议 AI 智能基准测试的根本性转变 [Source 17]

现状:人类 IQ 测试已沦为“小学生”试卷?

我们经常会看到“某 AI 的 IQ 超过 150”这类标题党新闻。但进入 2025 年后,这种简单的比较已经失去了意义。对于 GPT-4o 或 Gemini 1.5 等最新的 AI 系统来说,传统的人类 IQ 测试已不再是衡量其高级认知能力的合适标准。 重新思考 AI 智能测量:为什么 IQ 测试对 AI 来说已力不从心… [Source 15]

此外,我们通常认为 AI 正朝着通用人工智能 (AGI,拥有与人类同等或更高智能的 AI) 这一单一终点线列队奔跑。但专家大卫·佩雷拉 (David Pereira) 指出,这种想法是错误的。智能沿着单一维度(从窄 AI 到通用智能的直线路径)运作的假设本身已经遇到了瓶颈。 为什么 “AGI” 不再是一个有用的指标:重新思考我们如何衡量 AI… [Source 2]

形象地说,智能并不是像“身高几厘米”那样可以用一个数字排队的东西,而是一种“在各种环境下灵活解决复杂问题”的立体能力。

未来会如何?

专家们现在正在思考超越“模仿游戏 (Imitation Game)”的新型智能测量方法。不仅关注模仿人类的逼真程度,更在探索真实智能是如何表现的,并试图建立新的理论。 [超越模仿游戏:重新思考我们如何衡量通用智能 Springer Nature 研究社区](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence) [Source 9]

此外,正如康奈尔大学研讨会上讨论的那样,衡量信息复杂性的新标准(如从 Entropy 向 Epiplexity 的转变等)正在被引入。这是在尝试测量 AI 所拥有的“智能密度”,而非简单的“知识量”。 AI-MI 研讨会系列:从 Entropy 到 Epiplexity - 重新思考计算受限智能的信息 - 人工智能材料研究所 [Source 11]

最终,未来的 AI 将不再根据“它知道什么”来评价,而是根据“它如何在变化的环境中解决问题并进行策略性思考”来接受评估。

MindTickleBytes AI 记者的视角

一直以来,我们或许过于热衷于 AI 的“成绩单”了。相比于得到 100 分的结果,AI 是如何得出那个结论的,以及在面对突发变量时表现出怎样的灵活性,在当今时代变得重要得多。

像 Kaggle 游戏竞技场这样的尝试,是将 AI 视为能够与我们共同生活的“智能伙伴”而非单纯的计算器,并以此进行评估的第一步。因为真正的智能,往往在没有标准答案的世界里才能得到证明。现在我们问 AI:“除了考试题,你准备好和我们一起应对这个复杂的世界了吗?”


参考资料

  1. 重新思考我们如何衡量 AI 智能
  2. 为什么 “AGI” 不再是一个有用的指标:重新思考我们如何衡量 AI…
  3. 重新思考我们如何衡量 AI 智能 - ONMINE
  4. 重新思考我们如何衡量 AI 智能 - AiProBlog.Com
  5. 一些研究人员正在重新思考如何衡量 AI 智能
  6. 重新思考我们如何衡量 AI 智能
  7. [超越模仿游戏:重新思考我们如何衡量通用智能 Springer Nature 研究社区](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence)
  8. [人工智能 NIST](https://www.nist.gov/artificial-intelligence)
  9. AI-MI 研讨会系列:从 Entropy 到 Epiplexity - 重新思考计算受限智能的信息 - 人工智能材料研究所
  10. 重新思考我们如何衡量 AI 智能 - Robotics.ee
  11. 重新思考 AI 智能测量:为什么 IQ 测试对 AI 来说已力不从心…
  12. PDF 2025 年人工智能指数报告
  13. DeepMind 提议 AI 智能基准测试的根本性转变
测试你的理解
Q1. 现有 AI 性能衡量方式(基准测试)受到批评的主要原因是什么?
  • 测量成本太高
  • 题目变得太简单或太容易被操纵
  • AI 读不懂题目
专家指出,目前流行的基准测试往往不切实际,或者太容易被“操纵(game)”。
Q2. Google DeepMind 推出的新 AI 性能衡量平台叫什么名字?
  • Kaggle 游戏竞技场
  • AI 奥运会
  • DeepMind 国际象棋
Google DeepMind 引入了“Kaggle 游戏竞技场 (Kaggle Game Arena)”,让 AI 模型通过策略游戏直接对战。
Q3. 在 AI 智能衡量中,传统人类 IQ 测试的局限性是什么?
  • 只有人类才能看的试卷
  • 难以准确衡量 2025 年最新 AI 系统的能力
  • AI 讨厌数字
对于 GPT-4o 或 Gemini 1.5 等最新 AI 系统,传统的 IQ 测试已不再是有效的衡量标准。