如何衡量 AI 變得多聰明？Google DeepMind 提出的「AI 成績單」

AI Summary

Google DeepMind 公開了衡量 AI 智能的新標準：「認知分類法 (Cognitive Taxonomy)」，不再僅憑單一分數，而是透過 10 項認知能力進行多維度評估。

試著想像一下。您的孩子從學校回來，自豪地說：「媽媽，我今天在『聰明度』考試中得了 80 分！」然而當您仔細看成績單時，卻發現上面完全沒有標註這是數學分數、語文分數，還是體育課的跑步分數。您根本無從得知孩子是真的擅長數理，還是具有卓越的語言天賦。

到目前為止，人工智能 (AI) 的發展情況也與此類似。我們每天都聽到「這個 AI 簡直是天才」、「性能具有壓倒性」等說法，但卻缺乏明確的標準來衡量 AI 在哪些方面與人類相似，以及在哪些方面仍有不足。特別是關於我們距離能像人類一樣處理所有智力任務的「人工通用智能 (AGI, Artificial General Intelligence)」還有多遠，專家們也是眾說紛紜。來源 5

為了消除這種模糊性，全球頂尖的 AI 實驗室 Google DeepMind 於 2026 年 3 月發布了「認知分類法 (Cognitive Taxonomy)」，這是一把能系統化衡量 AI 智能的精確尺規。來源 1, 來源 10

為什麼這很重要？

因為 AI 已經超越了單純寫詩或協助編程的階段，開始進入全面替代人類智能的階段。在此時刻，明確的標準至關重要，原因有三：

掌握現狀：與其在不知道目的地 (AGI) 為何處的迷霧中行走，不如在地圖上精確標記當前座標，這要安全且高效得多。來源 6
安全與控管的關鍵：如果我們能預先知道 AI 在哪些特定認知能力上開始超越人類，就能預測潛在風險並制定適當的安全措施。例如，如果「欺騙」或「社會操縱」能力突飛猛進，我們必須立即予以警惕。
回歸智能本質：近期 AI 業界傾向於以「這個 AI 能賺多少錢」等商業價值來評估智能。來源 13 DeepMind 試圖擺脫這種金錢邏輯，將評估中心轉回到「人類心智與思考 (認知)」這一根本價值上。來源 13

AI 的「認知十項全能」

DeepMind 提出的這一框架可以比作 「AI 的奧運十項全能賽」。正如田徑十項全能評估跑步、跳躍、投擲等各項體力一樣，DeepMind 建議將 AI 的智能分為 10 項核心的認知功能 (Cognitive Faculties) 進行評估。來源 10, 來源 11, 來源 12

這 10 項能力包含了我們通常認為「聰明」的要素：

記憶力：能記住並調用龐大信息的能力
推理力：邏輯化解決問題的能力
語言理解力：理解語境與細微差別的能力
社交智能：洞察他人意圖的能力等

透過對智能的細分，我們可以進行立體的診斷，例如：「A 模型的記憶力是金牌水準，但其創意規劃 (Planning) 能力僅相當於小學生。」

AI 要多聰明才算達到「人類水準」？

DeepMind 制定了非常嚴格且具體的合格標準。如果一個 AI 系統在特定認知能力上 「至少與普通人樣本中 50% 以上的能力一致」，則認定其在該領域具備智能實力。來源 2

簡單來說，如果 AI 在解數學題時，比 100 個普通人中的 50 個做得更好或差不多，就會被判定為「該 AI 開始具備人類水準的數理推理能力」。這是一個務實的標準，認為即便不是 100% 完美，只要能達到人類平均水準，就足以在現實生活中發揮作用。來源 2

從理論走向實戰：2.7 億韓元的懸賞金

DeepMind 並非僅停留在口頭主張。為了將其實際付諸應用，他們提出了三個階段的精確實驗程序 (Protocol)。來源 4

定義：從學術上精確定義這 10 項認知能力。
測試題 (Benchmark)：開發能衡量各項能力的高難度測試題。
對決：在相同條件下對實際人類群體與 AI 進行對比測試。來源 4

為了吸引全球頂尖開發者參與，DeepMind 還舉辦了總獎金 20 萬美元 (約 2.7 億韓元) 的「Kaggle 黑客松」。這是一份邀請函，旨在共同打造將成為人類共同資產的「AI 智能測量儀」。來源 7, 來源 8, 來源 15

「已經實現」 vs 「尚且遙遠」：巨頭們的意見分歧

有趣的是，就在此發布前夕，Nvidia 執行長黃仁勳 (Jensen Huang) 聲稱「我們已經實現了 AGI」，引起了業界轟動。來源 13 但若套用 DeepMind 的嚴格尺規，情況就大不相同了。黃仁勳是以「通過特定考試或經濟成果」為標準，而 DeepMind 則堅持「人類複雜認知能力」這一更為嚴苛的標準。來源 13

我們將迎來的未來樣貌

這套剛起步的「認知分類法」將徹底改變我們對待 AI 的方式。

標準成績單的出現：未來發布的 GPT 或 Claude 等模型，可能會被要求強制提交成績單，標註「本模型在 DeepMind 體系的 10 個項目中，有 8 個超越了人類前 50%」。來源 12
精確補強弱點：如果數據顯示目前的 AI 雖然語言流利，但在「應對狀況及規劃 (Planning)」方面較弱，研究人員就能準確得知應優先改進哪些部分。來源 11
更深入理解人類的契機：在為了衡量 AI 而研究人腦與認知能力的過程中，我們可能會驚喜地重新發現人類是多麼複雜而偉大的存在。來源 9

歸根結底，這次發布的核心是將「無法衡量就無法管理」這一經營管理真理引入 AI 領域。對於在 AGI 這片巨大未知海洋中航行的人類，Google DeepMind 贈送了一個極其精確的指南針。來源 1

AI 觀點：MindTickleBytes AI 記者觀點

「智能無法被定義為單一的分數。DeepMind 提出的 10 項認知能力就像構成交響樂團的各種樂器。只有當所有樂器和諧演奏時，我們才能稱之為『真正的智能』。這一框架將成為衡量 AI 能否超越單純計算器、成為與我們共同理解並思考世界的真正夥伴的最重要考驗。」

參考資料

測量 AGI 的進展：認知框架
測量 AGI 的進展：認知框架 (PDF)
測量 AGI 的進展：認知框架 (AI Future Thinkers)
測量 AGI 的進展：認知框架 (AI Phreaks)
[測量 AGI 的進展：認知框架 AI Flow](https://aiflow.news/2026/03/17/measuring-progress-toward-agi-a-cognitive-framework)
測量 AGI 的進展：認知框架 – ONMINE
Google DeepMind 公開認知框架以追蹤 AGI 進展
[測量 AGI 的進展：認知框架 Hacker News](https://news.ycombinator.com/item?id=47424458)
Google DeepMind 發布認知框架以衡量 AGI 進展，啟動 20 萬美元 Kaggle 黑客松

[測量 AGI 的進展：認知框架

PDF

認知](https://www.scribd.com/document/1015882718/Measuring-Progress-Toward-Agi-a-Cognitive-Framework)

Google DeepMind 提議衡量 AGI 進展的認知框架 - Insights

[Nvidia 黃仁勳表示「我們已實現 AGI」，但事實並非如此…

Fortune](https://fortune.com/2026/03/30/agi-definition-jensen-huang-lex-fridman-deepmind-turing-text-cognitive-taxonomy/)

新聞— Google DeepMind
測量 AGI 的進展：認知框架… - NewsyToday
測量 AGI 的進展：認知框架 (Tech AI App)

事實核查摘要

已核實項目：13
已驗證項目：12
結論：通過

Share this article:

測試你的理解

Q1. Google DeepMind 提出的新 AGI 測量體系核心為何？

測量 AI 產生的收益
評估 10 項核心認知能力而非單一分數
僅確認是否通過圖靈測試

DeepMind 提出了「認知分類法」，將智能細分為 10 項主要的認知能力進行評估，而非單一指標。

Q2. 在此框架中，判定 AI 具備特定認知能力的標準為何？

發揮人類專家 100% 的能力時
能力至少與普通人樣本中的 50% 一致時
能同時翻譯全球所有語言時

當系統的表現至少與普通人樣本中 50% 以上的人認知能力一致時，即被視為證實具備該能力。

Q3. DeepMind 為了將此理論付諸實踐而發起了什麼活動？

AI 機器人足球大賽
總獎金 20 萬美元的 Kaggle 黑客松
全球開發者大會

DeepMind 舉辦了總獎金 20 萬美元的 Kaggle 黑客松，旨在建立評估基準。