AI 擅长做题就真的聪明吗?以‘游戏’衡量智能的新标准

两台机器人面对面下棋或玩战略游戏的场景,象征 AI 之间的对决
AI Summary

摆脱死记硬背答案的传统 AI 性能评估(基准测试),AI 通过实时战略游戏进行真刀真枪的对决来证明其真正智能的时代已经到来。

想象一下。你走进考场参加一场重要的数学考试,但打开试卷的一瞬间你惊呆了。事实上,这些题目与你昨晚在网上偶然看到的“历年真题”一模一样。即便是一个完全不懂题目的学生,只要死记硬背下答案序号,也能拿到满分。在这种情况下,我们真的能称这个学生为数学天才吗?还是仅仅叫他“背诵大王”?

现在的生成式人工智能 (AI) 世界正陷入同样的困扰。虽然每天都有新闻报道称 ChatGPT 或 Gemini 等最新 AI 在各种职业资格考试中超越了人类,但另一方面,“这真的是真实实力吗?”的质疑声也越来越大。今天,我们将聊聊为什么衡量 AI 智能的方式正在发生翻天覆地的变化,以及作为替代方案出现的精彩纷呈的“AI 竞技场”故事。

为什么这很重要?

长期以来,我们一直通过 基准测试 (Benchmark) 的分数来判断 AI 的性能。然而,最近研究人员警告称,目前流行的基准测试已经变得非常不合适,或者 AI 开发商为了提高分数而非常容易进行操纵 (Gaming) 一些研究人员正在重新思考如何衡量 AI 智能

打个比方,这就像是让 AI 去做高考题,但实际上 AI 的训练数据中已经包含了高考题库的所有解析。在专业术语中,这被称为“数据污染”,这更像是在测试“数据检索能力”而非智能。如果我们希望 AI 能够承担复杂的经营战略或医疗诊断,就必须确认其具备在充满不可预测变量的现实中解决问题的“真实实力”,而不仅仅是答对题目的能力。

轻松理解:AI 们的“1对1 死亡竞赛”,Kaggle Game Arena

为了解决这些问题,2025 年 8 月 4 日,Google DeepMind 与全球最大的数据科学社区 Kaggle 推出了一款全新的验证平台——Kaggle Game Arena 重新思考我们如何衡量 AI 智能

这里不是 AI 在安静的阅览室里做纸面测试的地方。它更像是一个角斗场,两个 AI 面对面坐着,展开复杂的“战略游戏”对决。

1. “直接交锋才能展现真实实力” (Head-to-Head)

如果说传统方式是独自解题的“单人考试”,那么游戏竞技场就像是需要阅读对方招式并作出应对的“围棋对局”。在胜负条件明确的环境中,最新的 AI 系统直接交锋定胜负,谁更优秀将得到无可争议的证明 重新思考我们如何衡量 AI 智能 - Manuel Rioux

2. “无法靠背诵应对的动态测试”

游戏中局势瞬息万变。如果对方在预料之外的地方落子,AI 必须立即修正策略。这比解决答案固定的题目是更高级别的智能衡量方式。简单来说,死记硬背历年真题是没用的,“阅读全局的能力”成为了核心 重新思考我们如何衡量 AI 智能 – ONMINE

3. “全球见证的透明验证”

该平台以开源形式运营,任何人都可以参与并查看结果 重新思考我们如何衡量 AI 智能… | TechNews。在全球开发者的注视下,哪款 AI 真正出类拔萃,其成绩单将透明地公开。

现状:我们一直忽略的东西

专家们敏锐地指出,我们在衡量 AI 发展时一直陷入了过于狭窄的视野。

AGI 不是唯一的顶点?

长期以来,我们一直相信 AI 正沿着一条直线奔向 AGI (通用人工智能,具有与人类相当或更高智能的 AI)。但专家大卫·佩雷拉 (David Pereira) 表示,假设智能在单一维度的线性路径上运作已不再有效 为什么“AGI”不再是一个有用的指标:重新思考我们如何衡量…。这意味着智能是一个像拥有数千种颜色的彩虹一样复杂且立体的领域。

效率陷阱:油耗很低却不认识路?

此外,我们过于关注“产出结果有多便宜、多快”,反而忽略了内容的质量。例如,有一个指标叫 “每瓦特令牌数 (Tokens-per-watt)”。这是一个衡量节省电力并产出文字的“性价比”指标。但是,这个指标完全无法告诉我们内容是否准确,或者是否正在解决有价值的问题 我们投资了 AI。我们忘记了衡量真正重要的东西。。这就像是一辆油耗表现惊人,却不知道目的地在哪里的汽车。

未来会怎样?

当衡量 AI 智能的标准从“考试分数”转变为“实战问题解决能力”时,AI 开发的范式也将发生改变。竞争将从单纯投入巨量数据让 AI 死记硬背答案的“体量竞赛”,转向逻辑推理和战略思考的“打造聪明大脑”,后者将获得更高的价值认可。

像 Kaggle Game Arena 这样的尝试,将成为验证 AI 是否能解决现实世界复杂问题的重要关口。以后,AI 可能不再吹嘘“我在这次考试中得了 100 分”,而是说“我在数万次不可预测的对决中获胜,证明了我的思考能力”。

你觉得哪种 AI 更可靠呢?是能精准答对考试题目的 AI,还是在复杂游戏中获胜的战略家 AI?在智能标准重新书写的今天,是我们该用全新眼光看待 AI 的时候了。


MindTickleBytes 的 AI 记者视角

AI 能够擅长解决人类的考试题目确实是令人惊讶的进步。但这并不直接意味着“理解”或“智力”。像游戏竞技场这样将 AI 投入不可预测的环境并让其一决高下的方式,将挤掉 AI 所拥有的“虚假智能”水分。这个筛选出真正能造福人类的“真实智能”的过程,将是 AI 超越单纯工具、蜕变为真正伙伴的必经之路。

参考资料

  1. 重新思考我们如何衡量 AI 智能
  2. 重新思考我们如何衡量 AI 智能 – ONMINE
  3. 重新思考我们如何衡量 AI 智能 – AiProBlog.Com
  4. 为什么“AGI”不再是一个有用的指标:重新思考我们如何衡量…
  5. 一些研究人员正在重新思考如何衡量 AI 智能
  6. 重新思考我们如何衡量 AI 智能 - Manuel Rioux
  7. [重新思考我们如何衡量 AI 智能… TechNews](https://news-tech.io/ko/news/rethinking-how-we-measure-ai-intelligence)
  8. 我们投资了 AI。我们忘记了衡量真正重要的东西。
  9. 重新思考我们如何衡量 AI 智能 - googblogs.com

FACT-CHECK SUMMARY

  • 已检查声明:12
  • 已验证声明:11
  • 结论:通过
测试你的理解
Q1. 关于传统的 AI 性能评估方式(基准测试),专家们指出的主要问题是什么?
  • 测量成本太高
  • 题目变得太容易或容易作弊
  • 无法衡量图像生成能力
专家指出,当前流行的基准测试已经变得不合适,或者很容易被操纵(作弊)。
Q2. 2025 年 8 月 4 日发布的,通过 AI 之间 1 对 1 对决来衡量实力的全新平台叫什么?
  • AI 冠军联赛
  • Google DeepMind Arena
  • Kaggle Game Arena
Kaggle Game Arena 是一个让 AI 模型通过战略游戏直接竞争来证明智能的新平台。
Q3. ‘每瓦特令牌数 (tokens-per-watt)’这一指标的局限性是什么?
  • 无法衡量 AI 的运算速度
  • 无法计算电费
  • 无法反映输出的准确性或问题解决能力
这一指标虽然显示了系统产出结果的成本有多低,但并不能说明内容是否准确或有价值。