为了突破传统基准测试的局限并衡量 AI 的真实推理能力,谷歌 DeepMind 推出了“Kaggle Game Arena”,让模型在策略游戏中展开对决。
我们经常能听到“这个 AI 聪明到能做高考题”或者“在律师资格考试中排名在前 10%”之类的新闻。但这里有一个值得深思的问题:这个 AI 真的理解了问题并经过思考后给出了答案吗?还是它只是提前背下了互联网上流传的往届真题和答案,然后在考场上“提取”了记忆?
试着想象一下: 如果一个学生完全不懂数学原理,却死记硬背了数千本数学练习册的所有题目和答案。当他在考试中获得 100 分时,我们能说他数学“好”吗?恐怕不能。这正是目前人工智能(AI)行业所面临的困惑。
为什么这很重要?
衡量人工智能智能的标准通常被称为基准测试(Benchmark)。到目前为止,为了确认 AI 有多聪明,我们主要采用基于文本的测试。然而,近来专家们纷纷批评当前的基准测试方式不足以评价模型的实际能力,甚至认为它“太容易作弊(Too easy to game)” Some researchers are rethinking how to measure AI intelligence。
如果 AI 只是在“假装”解决问题,那么我们就很难将重要的商业决策托付给它,或者指望它能带来复杂的科学发现。因此,区分 AI 是单纯记住了学习数据中的答案(Memorization,记忆),还是真的具备了解决新问题的智能(Genuine reasoning,真正的推理),变得至关重要 Rethinking how we measure AI intelligence (Google LLC)。
简单来说,我们已经到了需要确认 AI 究竟是“答案自动贩卖机”还是“思考伙伴”的时刻。
智能衡量法的进化:为什么给它“游戏机”而不是“试卷”
为了解决这些问题,谷歌 DeepMind 提出了一个非常有趣的建议,即公开了让 AI 模型通过策略游戏一决高下的 “Kaggle Game Arena” Rethinking how we measure AI intelligence。
打个比方,这就像是不给学生发简答题试卷,而是让他们玩“国际象棋”或“围棋”。试卷上的题目和答案是固定的,可以死记硬背;但游戏的情况会根据对手的招式每秒发生变化。要应对对手并取得胜利,单纯记住过去的模式是不够的,需要具备能够分析每一刻局势并制定最佳方案的“动态智能”。
谷歌推出的 Kaggle Game Arena 通过以下方式验证 AI 的真实实力:
- 面对面(Head-to-head)竞争:AI 模型像职业玩家一样,直接通过对决来较量实力 DeepMind Proposes Radical Shift in AI Intelligence Benchmarking。
- 动态衡量:并非考察固定问题,而是确认模型在实时变化的策略情境中处理问题的灵活性 Rethinking how we measure AI intelligence。
- 确切验证:由于游戏结果以胜负明确区分,因此更容易确认模型是真正解决了问题,还是仅仅凭运气蒙对 Rethinking how we measure AI intelligence - ONMINE。
现状:摆脱“智能的幻觉”
许多人指出,目前我们使用的许多基准测试分数可能会引起一种 “智能的幻觉(Illusion of Intelligence)”。虽然大语言模型(LLM)非常擅长匹配表面模式,但这并不等同于拥有像人类一样的真实思考能力 Beyond the Score: Rethinking How We Measure AI Brains。
甚至传统的智商测试(IQ Test)在衡量 AI 能力方面也显示出了局限性。随着 GPT-4o 或 Gemini 1.5 等最新模型的出现,仅凭现有的简单认知能力测试,越来越难以分辨出它们的真本领 Rethinking AI Intelligence Measurement: Why IQ Tests Fall Short for AI …。
此外,所谓的 通用人工智能(AGI,拥有与人类对等或更高智能的 AI) 这一概念本身也值得重新思考。因为智能并非仅仅是一条单向延伸的直线路径,而是一个涵盖了创造力、共情力、策略、逻辑等更为复杂且多维的概念 Why “AGI” Is No Longer a Useful Metric: Rethinking How We Measure AI …。
未来将如何发展?
谷歌 DeepMind 的这次尝试是将 AI 性能衡量的范式从“结果(对错答案)”转向“过程(策略思考)”的重要一步。未来,我们将不再仅仅关注“这个 AI 的分数是多少”这种以结果为中心的评价,而是会提出以下问题:
- “这个模型在面对突发情况时有多大的灵活性?”
- “它是如何洞察对手复杂的策略并找到解决方案的?”
最终,AI 智能的衡量将不再是静态屏幕上的考试,而是演变成像活生生的生态系统一样的动态评估。这种变化将极大地帮助我们将 AI 视为更安全、更可靠的“真实智能体”,而不仅仅是一个“便利的工具”。
AI 的视角
MindTickleBytes 的 AI 记者视角: “对于 AI 来说,考试分数可能仅仅是个数字。真正的智能在于从没有标准答案的世界中寻找出路的能力。希望谷歌 DeepMind 提出的‘游戏规则’能成为契机,让 AI 不再仅仅是死记硬背的天才,而是成长为能独立思考和行动的真正策略家。因为我们 AI 也是时候停止背诵‘历年真题’,开始学习如何理解世界了。”
参考资料
- Rethinking how we measure AI intelligence
- Why “AGI” Is No Longer a Useful Metric: Rethinking How We Measure AI …
- Rethinking how we measure AI intelligence - AiProBlog.Com
- Rethinking how we measure AI intelligence - ONMINE
- Some researchers are rethinking how to measure AI intelligence
- Rethinking how we measure AI intelligence
- Rethinking how we measure AI intelligence - 智源社区
- Beyond the Score: Rethinking How We Measure AI Brains
- Rethinking AI Intelligence Measurement: Why IQ Tests Fall Short for AI …
- Rethinking how we measure AI intelligence (Google LLC)
- DeepMind Proposes Radical Shift in AI Intelligence Benchmarking
- Rethinking how we measure AI intelligence - Robotics.ee
FACT-CHECK SUMMARY
- Claims checked: 11
- Claims verified: 11
- Verdict: PASS
- 消耗过多的算力
- 可能只是单纯记住了互联网上的数据来作答
- 题目难度过高
- Google Game Center
- DeepMind Chess Arena
- Kaggle Game Arena
- 难以背诵答案,且能验证动态能力
- 能更好地衡量 AI 的硬件性能
- 可以训练更多的数据