Google DeepMind 公開了衡量 AI 智能的新標準:「認知分類法 (Cognitive Taxonomy)」,不再僅憑單一分數,而是透過 10 項認知能力進行多維度評估。
試著想像一下。您的孩子從學校回來,自豪地說:「媽媽,我今天在『聰明度』考試中得了 80 分!」然而當您仔細看成績單時,卻發現上面完全沒有標註這是數學分數、語文分數,還是體育課的跑步分數。您根本無從得知孩子是真的擅長數理,還是具有卓越的語言天賦。
到目前為止,人工智能 (AI) 的發展情況也與此類似。我們每天都聽到「這個 AI 簡直是天才」、「性能具有壓倒性」等說法,但卻缺乏明確的標準來衡量 AI 在哪些方面與人類相似,以及在哪些方面仍有不足。特別是關於我們距離能像人類一樣處理所有智力任務的「人工通用智能 (AGI, Artificial General Intelligence)」還有多遠,專家們也是眾說紛紜。 來源 5
為了消除這種模糊性,全球頂尖的 AI 實驗室 Google DeepMind 於 2026 年 3 月發布了「認知分類法 (Cognitive Taxonomy)」,這是一把能系統化衡量 AI 智能的精確尺規。 來源 1, 來源 10
為什麼這很重要?
因為 AI 已經超越了單純寫詩或協助編程的階段,開始進入全面替代人類智能的階段。在此時刻,明確的標準至關重要,原因有三:
- 掌握現狀:與其在不知道目的地 (AGI) 為何處的迷霧中行走,不如在地圖上精確標記當前座標,這要安全且高效得多。 來源 6
- 安全與控管的關鍵:如果我們能預先知道 AI 在哪些特定認知能力上開始超越人類,就能預測潛在風險並制定適當的安全措施。例如,如果「欺騙」或「社會操縱」能力突飛猛進,我們必須立即予以警惕。
- 回歸智能本質:近期 AI 業界傾向於以「這個 AI 能賺多少錢」等商業價值來評估智能。 來源 13 DeepMind 試圖擺脫這種金錢邏輯,將評估中心轉回到「人類心智與思考 (認知)」這一根本價值上。 來源 13
AI 的「認知十項全能」
DeepMind 提出的這一框架可以比作 「AI 的奧運十項全能賽」。正如田徑十項全能評估跑步、跳躍、投擲等各項體力一樣,DeepMind 建議將 AI 的智能分為 10 項核心的認知功能 (Cognitive Faculties) 進行評估。 來源 10, 來源 11, 來源 12
這 10 項能力包含了我們通常認為「聰明」的要素:
- 記憶力:能記住並調用龐大信息的能力
- 推理力:邏輯化解決問題的能力
- 語言理解力:理解語境與細微差別的能力
- 社交智能:洞察他人意圖的能力等
透過對智能的細分,我們可以進行立體的診斷,例如:「A 模型的記憶力是金牌水準,但其創意規劃 (Planning) 能力僅相當於小學生。」
AI 要多聰明才算達到「人類水準」?
DeepMind 制定了非常嚴格且具體的合格標準。如果一個 AI 系統在特定認知能力上 「至少與普通人樣本中 50% 以上的能力一致」,則認定其在該領域具備智能實力。 來源 2
簡單來說,如果 AI 在解數學題時,比 100 個普通人中的 50 個做得更好或差不多,就會被判定為「該 AI 開始具備人類水準的數理推理能力」。這是一個務實的標準,認為即便不是 100% 完美,只要能達到人類平均水準,就足以在現實生活中發揮作用。 來源 2
從理論走向實戰:2.7 億韓元的懸賞金
DeepMind 並非僅停留在口頭主張。為了將其實際付諸應用,他們提出了三個階段的精確實驗程序 (Protocol)。 來源 4
- 定義:從學術上精確定義這 10 項認知能力。
- 測試題 (Benchmark):開發能衡量各項能力的高難度測試題。
- 對決:在相同條件下對實際人類群體與 AI 進行對比測試。 來源 4
為了吸引全球頂尖開發者參與,DeepMind 還舉辦了總獎金 20 萬美元 (約 2.7 億韓元) 的 「Kaggle 黑客松」。這是一份邀請函,旨在共同打造將成為人類共同資產的「AI 智能測量儀」。 來源 7, 來源 8, 來源 15
「已經實現」 vs 「尚且遙遠」:巨頭們的意見分歧
有趣的是,就在此發布前夕,Nvidia 執行長黃仁勳 (Jensen Huang) 聲稱「我們已經實現了 AGI」,引起了業界轟動。 來源 13 但若套用 DeepMind 的嚴格尺規,情況就大不相同了。黃仁勳是以「通過特定考試或經濟成果」為標準,而 DeepMind 則堅持「人類複雜認知能力」這一更為嚴苛的標準。 來源 13
我們將迎來的未來樣貌
這套剛起步的「認知分類法」將徹底改變我們對待 AI 的方式。
- 標準成績單的出現:未來發布的 GPT 或 Claude 等模型,可能會被要求強制提交成績單,標註「本模型在 DeepMind 體系的 10 個項目中,有 8 個超越了人類前 50%」。 來源 12
- 精確補強弱點:如果數據顯示目前的 AI 雖然語言流利,但在「應對狀況及規劃 (Planning)」方面較弱,研究人員就能準確得知應優先改進哪些部分。 來源 11
- 更深入理解人類的契機:在為了衡量 AI 而研究人腦與認知能力的過程中,我們可能會驚喜地重新發現人類是多麼複雜而偉大的存在。 來源 9
歸根結底,這次發布的核心是將「無法衡量就無法管理」這一經營管理真理引入 AI 領域。對於在 AGI 這片巨大未知海洋中航行的人類,Google DeepMind 贈送了一個極其精確的指南針。 來源 1
AI 觀點:MindTickleBytes AI 記者觀點
「智能無法被定義為單一的分數。DeepMind 提出的 10 項認知能力就像構成交響樂團的各種樂器。只有當所有樂器和諧演奏時,我們才能稱之為『真正的智能』。這一框架將成為衡量 AI 能否超越單純計算器、成為與我們共同理解並思考世界的真正夥伴的最重要考驗。」
參考資料
- 測量 AGI 的進展:認知框架
- 測量 AGI 的進展:認知框架 (PDF)
- 測量 AGI 的進展:認知框架 (AI Future Thinkers)
- 測量 AGI 的進展:認知框架 (AI Phreaks)
-
[測量 AGI 的進展:認知框架 AI Flow](https://aiflow.news/2026/03/17/measuring-progress-toward-agi-a-cognitive-framework) - 測量 AGI 的進展:認知框架 – ONMINE
- Google DeepMind 公開認知框架以追蹤 AGI 進展
-
[測量 AGI 的進展:認知框架 Hacker News](https://news.ycombinator.com/item?id=47424458) - Google DeepMind 發布認知框架以衡量 AGI 進展,啟動 20 萬美元 Kaggle 黑客松
-
[測量 AGI 的進展:認知框架 PDF 認知](https://www.scribd.com/document/1015882718/Measuring-Progress-Toward-Agi-a-Cognitive-Framework) - Google DeepMind 提議衡量 AGI 進展的認知框架 - Insights
-
[Nvidia 黃仁勳表示「我們已實現 AGI」,但事實並非如此… Fortune](https://fortune.com/2026/03/30/agi-definition-jensen-huang-lex-fridman-deepmind-turing-text-cognitive-taxonomy/) - 新聞— Google DeepMind
- 測量 AGI 的進展:認知框架… - NewsyToday
- 測量 AGI 的進展:認知框架 (Tech AI App)
事實核查摘要
- 已核實項目:13
- 已驗證項目:12
- 結論:通過
- 測量 AI 產生的收益
- 評估 10 項核心認知能力而非單一分數
- 僅確認是否通過圖靈測試
- 發揮人類專家 100% 的能力時
- 能力至少與普通人樣本中的 50% 一致時
- 能同時翻譯全球所有語言時
- AI 機器人足球大賽
- 總獎金 20 萬美元的 Kaggle 黑客松
- 全球開發者大會