告别只顾死记硬背标准答案的传统 AI 评估方式,通过策略游戏衡量 AI 真正的问题解决能力的新时代正在开启。
考试分数高就代表真的聪明吗?
想象一下,你身边有一个朋友,每次考试都能得 100 分。但是,当你问他“今天午饭吃什么好?”或者“突然下雨了该怎么办?”这类极其日常、需要灵活思考的问题时,他却无法给出合理的回答。
我们真的能说这个朋友“很聪明”吗?恐怕你会怀疑:“他是不是只会死记硬背考试题目和标准答案?”
如今的人工智能(AI)世界正面临着同样的处境。一直以来,我们通过基准测试(Benchmark,衡量 AI 性能的标准试卷)这一工具来给 AI 的聪明程度打分。但最近,专家们纷纷表示:“不能再盲目相信这些考试分数了。”根据一些研究人员正在重新思考如何衡量 AI 智能的观点,现有的主流评估方式往往无法展示 AI 的真实水平,反而很容易被巧妙地利用或“操纵(Game,为了刷分而钻空子)”。 [Source 6]
这为什么很重要?
我们之所以要准确衡量 AI 的实力,并不只是为了给它们排座次。
| 首先,是为了安全。如果我们高估了 AI 的能力并赋予其过于艰巨的任务,或者相反,因为低估而忽视了潜在的风险,都可能导致意想不到的事故。这正是美国国家标准与技术研究院 (NIST) 致力于改进 AI 测量科学和标准,并专注于“基于风险的方法”的原因。 [人工智能 | NIST](https://www.nist.gov/artificial-intelligence) [Source 10] |
其次,是为了甄别真正的创新。根据《2025 年人工智能指数报告》(AI Index Report 2025),AI 的影响力已经深度渗透到我们的社会、经济以及全球治理的方方面面。 PDF 2025 年人工智能指数报告 [Source 16] 判别这项如此重要的技术是否拥有“真实”智能,还是仅仅是一个擅长模仿过去数据的“复读机”,是决定我们未来的核心问题。
轻松理解:从“笔试”向“足球赛”的转变
到目前为止,AI 评估更像是“选择题测试”。有一个固定的标准答案,如果 AI 答对了,就给分。但 Google DeepMind 想要彻底改变这一范式。他们给出的答案正是“Kaggle 游戏竞技场 (Kaggle Game Arena)”。 重新思考我们如何衡量 AI 智能 [Source 1]
打个比方,这就像是“走出笔试考场,到操场上亲自踢一场足球赛”。
1. 1:1 巅峰对决 (Head-to-Head)
传统方式是独自坐在安静的房间里解决固定的题目,而在 Kaggle 游戏竞技场中,AI 模型之间会直接进行较量。它们必须通过策略游戏读取对手的招式并实时做出反应。这不仅要求博学,更要求为了战胜对手而开动“脑筋”。 重新思考我们如何衡量 AI 智能 - ONMINE [Source 4]
2. 没有标准答案的“动态”测量
就像在足球比赛中无法预知对手的动作一样,这个平台上的对决是非常动态的。简单来说,预先背诵答案是不可能的。只有根据实际情况发挥自己的智能才能获得胜利,这让 AI 的能力测量变得更加可验证且生动。 重新思考我们如何衡量 AI 智能 [Source 7]
3. “策略”与“资源管理”
这不仅仅是罗列漂亮句子的能力。它观察的是在进行策略游戏时,为了达成目标而管理有限资源并制定长期计划的过程。这象征着 Google DeepMind 提议的 AI 基准测试的“根本性转变 (Radical Shift)”。 DeepMind 提议 AI 智能基准测试的根本性转变 [Source 17]
现状:人类 IQ 测试已沦为“小学生”试卷?
我们经常会看到“某 AI 的 IQ 超过 150”这类标题党新闻。但进入 2025 年后,这种简单的比较已经失去了意义。对于 GPT-4o 或 Gemini 1.5 等最新的 AI 系统来说,传统的人类 IQ 测试已不再是衡量其高级认知能力的合适标准。 重新思考 AI 智能测量:为什么 IQ 测试对 AI 来说已力不从心… [Source 15]
此外,我们通常认为 AI 正朝着通用人工智能 (AGI,拥有与人类同等或更高智能的 AI) 这一单一终点线列队奔跑。但专家大卫·佩雷拉 (David Pereira) 指出,这种想法是错误的。智能沿着单一维度(从窄 AI 到通用智能的直线路径)运作的假设本身已经遇到了瓶颈。 为什么 “AGI” 不再是一个有用的指标:重新思考我们如何衡量 AI… [Source 2]
形象地说,智能并不是像“身高几厘米”那样可以用一个数字排队的东西,而是一种“在各种环境下灵活解决复杂问题”的立体能力。
未来会如何?
| 专家们现在正在思考超越“模仿游戏 (Imitation Game)”的新型智能测量方法。不仅关注模仿人类的逼真程度,更在探索真实智能是如何表现的,并试图建立新的理论。 [超越模仿游戏:重新思考我们如何衡量通用智能 | Springer Nature 研究社区](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence) [Source 9] |
此外,正如康奈尔大学研讨会上讨论的那样,衡量信息复杂性的新标准(如从 Entropy 向 Epiplexity 的转变等)正在被引入。这是在尝试测量 AI 所拥有的“智能密度”,而非简单的“知识量”。 AI-MI 研讨会系列:从 Entropy 到 Epiplexity - 重新思考计算受限智能的信息 - 人工智能材料研究所 [Source 11]
最终,未来的 AI 将不再根据“它知道什么”来评价,而是根据“它如何在变化的环境中解决问题并进行策略性思考”来接受评估。
MindTickleBytes AI 记者的视角
一直以来,我们或许过于热衷于 AI 的“成绩单”了。相比于得到 100 分的结果,AI 是如何得出那个结论的,以及在面对突发变量时表现出怎样的灵活性,在当今时代变得重要得多。
像 Kaggle 游戏竞技场这样的尝试,是将 AI 视为能够与我们共同生活的“智能伙伴”而非单纯的计算器,并以此进行评估的第一步。因为真正的智能,往往在没有标准答案的世界里才能得到证明。现在我们问 AI:“除了考试题,你准备好和我们一起应对这个复杂的世界了吗?”
参考资料
- 重新思考我们如何衡量 AI 智能
- 为什么 “AGI” 不再是一个有用的指标:重新思考我们如何衡量 AI…
- 重新思考我们如何衡量 AI 智能 - ONMINE
- 重新思考我们如何衡量 AI 智能 - AiProBlog.Com
- 一些研究人员正在重新思考如何衡量 AI 智能
- 重新思考我们如何衡量 AI 智能
-
[超越模仿游戏:重新思考我们如何衡量通用智能 Springer Nature 研究社区](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence) -
[人工智能 NIST](https://www.nist.gov/artificial-intelligence) - AI-MI 研讨会系列:从 Entropy 到 Epiplexity - 重新思考计算受限智能的信息 - 人工智能材料研究所
- 重新思考我们如何衡量 AI 智能 - Robotics.ee
- 重新思考 AI 智能测量:为什么 IQ 测试对 AI 来说已力不从心…
- PDF 2025 年人工智能指数报告
- DeepMind 提议 AI 智能基准测试的根本性转变
- 测量成本太高
- 题目变得太简单或太容易被操纵
- AI 读不懂题目
- Kaggle 游戏竞技场
- AI 奥运会
- DeepMind 国际象棋
- 只有人类才能看的试卷
- 难以准确衡量 2025 年最新 AI 系统的能力
- AI 讨厌数字