如何衡量 AI 变得有多聪明?谷歌 DeepMind 提出 'AI 成绩单'

象征各种认知能力的图标相互连接,形成一个智能整体的图形图像
AI Summary

谷歌 DeepMind 公布了评估 AI 智能的新标准——'认知分类体系' (Cognitive Taxonomy),该标准不再仅依靠单一分数,而是通过 10 项认知能力对 AI 进行多维度评估。

想象一下,您的孩子放学回家自豪地说:“妈妈,我今天的‘聪明才智’考试得了 80 分!”然而,当您仔细查看成绩单时,却发现上面完全没有写明是数学分数、语文分数,还是体育课的跑步分数。您根本无从得知孩子是逻辑思维敏捷,还是语言天赋异禀。

到目前为止,人工智能(AI)的情况也与之类似。我们每天都能听到“这个 AI 简直是天才”、“性能具有压倒性”之类的话,但却缺乏明确的标准来衡量 AI 在哪些方面已经接近人类,在哪些方面仍有很长的路要走。特别是在我们距离能够胜任所有智力工作的“人工通用智能 (AGI, Artificial General Intelligence)”究竟还有多远的问题上,专家们也是众说纷纭。来源 5

为了解决这种模糊性,全球顶尖的 AI 实验室——谷歌 DeepMind (Google DeepMind) 于 2026 年 3 月发布了“认知分类体系” (Cognitive Taxonomy),这是一把可以系统化衡量 AI 智能的精密标尺。来源 1来源 10

为什么这很重要?

因为 AI 已经超越了写诗或辅助编程的水平,进入了试图全面替代人类智能的阶段。在这个时间点上,我们需要明确标准的理由有三点:

  1. 了解我们的现状:与其在不知道终点(AGI)在哪里的迷雾中行走,不如在地图上精确标注当前的坐标,这样要安全和高效得多。来源 6
  2. 安全与管控的关键:如果我们预先知道 AI 在哪些特定的认知能力上开始超越人类,我们就可以预测可能发生的风险并制定适当的安全措施。例如,如果 AI 的“欺骗”或“社交操纵”能力突飞猛进,我们就必须立即引起警惕。
  3. 专注于智能的本质:近期 AI 业界倾向于通过“这个 AI 能赚多少钱”等商业价值来评估智能。来源 13 DeepMind 试图摆脱这种金钱逻辑,将评估的中心重新转回“人类的心智与思考(认知)”这一根本价值上。来源 13

AI 的“认知十项全能”

DeepMind 提出的这一框架可以比作“为 AI 准备的奥林匹克十项全能”。正如田径十项全能需要综合评估跑步、跳跃、投掷等各种体能一样,DeepMind 建议将 AI 的智能划分为 10 项核心的认知功能 (Cognitive Faculties) 进行评估。来源 10来源 11来源 12

这 10 项能力包含了我们通常认为“聪明”的各种要素:

  • 记忆力:不遗忘并调用海量信息的能力
  • 推理能力:逻辑化解决问题的能力
  • 语言理解力:理解语境和细微差别的能力
  • 社交智能:察觉他人意图的能力等

通过这样细分智能,我们就可以进行立体化的诊断,例如:“A 模型的记忆力是金牌级别的,但其创意性的规划 (Planning) 能力仅相当于小学生水平。”

AI 要多聪明才算达到“人类级别”?

DeepMind 制定了非常严格且具体的合格标准。如果一个 AI 系统在某项特定认知能力上“与普通人样本中至少 50% 以上的能力相匹配”,则认定其在该领域具备了智力能力。来源 2

简单来说,如果 AI 在解数学题时,比 100 个普通人中的 50 个做得更好或旗鼓相当,那么就可以判定“这个 AI 开始具备人类级别的数学推理能力”。这是一个现实的标准,即即便不是 100% 完美,只要能达到人类的平均水平,就被认为足以在现实生活中发挥作用。来源 2

从理论走向实战:2.7 亿韩元的悬赏金

DeepMind 并没有仅仅停留在“这个标准很好”的口头主张上。为了将其付诸实践,他们提出了三个阶段的精密实验程序 (Protocol)。来源 4

  1. 定义:在学术上精确定义 10 项认知能力究竟是什么。
  2. 测评试题 (Benchmark):开发能够测量各项能力的高难度试题。
  3. 对决:在相同条件下对真实的人类群体和 AI 进行对比测试。来源 4

为了吸引全球的天才开发者参与其中,他们举办了总奖金达 20 万美元(约 2.7 亿韩元)的“Kaggle 黑客松”。来源 10 这是一份邀请函,旨在共同打造将成为全人类共同资产的“AI 智能测量仪”。来源 7来源 8来源 15

“已经到来” vs “还很遥远”:巨头间的分歧

有趣的是,在此次发布前夕,英伟达 (Nvidia) 首席执行官黄仁勋 (Jensen Huang) 曾声称“我们已经实现了 AGI”,引起了业内的轰动。来源 13 但如果套用 DeepMind 的严苛标尺,情况就会有所不同。黄仁勋是以“通过特定考试或经济成果”为标准,而 DeepMind 则坚持以“人类复杂的认知能力”这一更为苛刻的标准为准绳。来源 13

我们将迎来的未来景象

这一刚刚起步的“认知分类体系”将彻底改变我们未来对待 AI 的方式。

  • 标准成绩单的出现:未来发布的 GPT 或 Claude 等模型,可能必须提交一份成绩单,上面写着“在 DeepMind 体系的 10 个项目中,我们的模型有 8 个超过了人类前 50% 的水平”。来源 12
  • 精准弥补弱点:如果数据表明目前的 AI 虽然语言流畅但“情境应对与规划 (Planning)”能力薄弱,研究人员就能准确知道应该优先改进什么。来源 11
  • 更深入理解人类的契机:在为了测量 AI 而研究人类大脑和认知能力的过程中,这反而会成为重新发现我们人类是多么复杂而伟大的存在的惊奇之旅。来源 9

归根结底,此次发布的内核是将“无法衡量就无法管理”这一管理学真理引入了 AI 领域。谷歌 DeepMind 为正在 AGI 这一巨大未知海洋中航行的人类,送上了一个极其精密的指南针。来源 1


AI 的视角:MindTickleBytes AI 记者点评

“智能无法被定义为一个单一的分数。DeepMind 提出的 10 项认知能力就像构成管弦乐队的各种乐器。只有当所有乐器和谐演奏时,我们才能称之为‘真正的智能’。这一框架将成为衡量 AI 是否能超越单纯的计算器,成为与我们共同理解并思考世界的真正伙伴的最重要的试金石。”


参考资料

  1. Measuring Progress Towards AGI: A Cognitive Framework
  2. Measuring Progress Toward AGI: A Cognitive Framework (PDF)
  3. Measuring Progress Towards AGI: A Cognitive Framework (AI Future Thinkers)
  4. Measuring progress toward AGI: A cognitive framework (AI Phreaks)
  5. [Measuring progress toward AGI: A cognitive framework AI Flow](https://aiflow.news/2026/03/17/measuring-progress-toward-agi-a-cognitive-framework)
  6. Measuring progress toward AGI: A cognitive framework – ONMINE
  7. Google DeepMind unveils cognitive framework to track AGI progress
  8. [Measuring progress toward AGI: A cognitive framework Hacker News](https://news.ycombinator.com/item?id=47424458)
  9. Google DeepMind Releases Cognitive Framework to Measure AGI Progress, Launches $200K Kaggle Hackathon
  10. [Measuring Progress Toward Agi A Cognitive Framework PDF Cognition](https://www.scribd.com/document/1015882718/Measuring-Progress-Toward-Agi-a-Cognitive-Framework)
  11. Google DeepMind Proposes a Cognitive Framework for Measuring AGI Progress - Insights
  12. [Nvidia’s Jensen Huang says ‘we’ve achieved AGI.’ But no… Fortune](https://fortune.com/2026/03/30/agi-definition-jensen-huang-lex-fridman-deepmind-turing-text-cognitive-taxonomy/)
  13. News— Google DeepMind
  14. Measuring Progress Towards AGI: A Cognitive… - NewsyToday
  15. Measuring Progress Towards AGI: A Cognitive Framework (Tech AI App)

FACT-CHECK SUMMARY

  • Claims checked: 13
  • Claims verified: 12
  • Verdict: PASS
测试你的理解
Q1. 谷歌 DeepMind 提出的新 AGI 测量体系的核心是什么?
  • 衡量 AI 赚取的利润
  • 评估 10 项核心认知能力,而非单一分数
  • 仅确认是否通过图灵测试
DeepMind 提出了 '认知分类体系',建议将智能细分为 10 项主要认知能力进行评估,而非使用单一指标。
Q2. 在该框架中,判断 AI 具备特定认知能力的标准是什么?
  • 发挥出人类专家 100% 的能力时
  • 与普通人样本中至少 50% 以上的能力相匹配时
  • 能够同时翻译全球所有语言时
当系统能力与普通人样本中至少 50% 以上的认知能力相匹配时,即被视为证明具备了该能力。
Q3. DeepMind 为了将这一理论付诸实践而发起的活动是什么?
  • AI 机器人足球大赛
  • 奖金总额 20 万美元的 Kaggle 黑客松
  • 全球开发者大会
为了构建评估基准,DeepMind 举办了总奖金达 20 万美元的 Kaggle 黑客松。