AI的「真正」實力如何衡量？只會答對問題的時代已經結束了

AI Summary

擺脫以往只顧著背誦答案的 AI 評估方式，透過策略遊戲競爭 AI 真正解決問題能力的新時代正在開啟。

考試分數高就代表真的聰明嗎？

想像一下。你身邊有一個每次考試都拿 100 分的朋友。但假設當你問他「今天午餐吃什麼好呢？」或者「突然下雨了該怎麼辦？」這類極其日常且需要靈活思考的問題時，他卻無法給出像樣的回答。

我們真的能說這位朋友「很聰明」嗎？大概會懷疑：「他是不是只會死背考題和答案？」

現在的人工智慧 (AI) 世界正處於這種情況。長期以來，我們一直透過名為「基準測試 (Benchmark，衡量 AI 性能的標準試卷)」的工具來為 AI 的聰明程度評分。但最近專家之間出現了越來越多「不能再相信這些考試分數」的聲音。根據 Some researchers are rethinking how to measure AI intelligence 的報導，目前廣泛使用的評估方式，與其說展現了真實實力，不如說太容易被巧妙利用或操弄 (Game，為了獲得分數而投機取巧)。[Source 6]

為什麼這很重要？

我們正確衡量 AI 的實力，並不只是為了排名。

第一，是為了安全。 如果我們高估了 AI 的能力而交付過於困難的工作，或者相反地低估了它而忽視潛在風險，就可能發生預料之外的事故。這正是美國國家標準暨技術研究院 (NIST) 為了改善 AI 衡量科學與標準而專注於「風險導向方法」的原因。[Artificial intelligence

NIST](https://www.nist.gov/artificial-intelligence) [Source 10]

第二，是為了辨別真正的創新。 根據 2025 年人工智慧指數報告 (AI Index Report 2025)，AI 的影響力現已深入滲透到我們的社會、經濟以及全球治理的各個領域。PDF Artificial Intelligence Index Report 2025 [Source 16] 辨別這項如此重要的技術是否具備「真正」的智慧，或者僅僅是擅長模仿過去數據的「鸚鵡」，是決定我們未來的核心問題。

輕鬆理解：從紙筆測驗轉向「足球比賽」

至今為止的 AI 評估就像是「選擇題解題」。有固定的標準答案，只要 AI 答對就給分。然而，Google DeepMind 正試圖徹底改變這種模式。他們提出的解決方案正是「Kaggle Game Arena」。Rethinking how we measure AI intelligence [Source 1]

舉例來說，這就像是說：「走出紙筆考場，到操場上直接踢一場足球賽吧。」

1. 1:1 真劍勝負 (Head-to-Head)

如果說傳統方式是獨自坐在安靜的房間裡解決既定問題，那麼在 Kaggle Game Arena 中，AI 模型將會互相對決。必須透過策略遊戲讀取對手的招數並即時反應。這不只是看誰知道得多，而是必須絞盡腦汁使出「智慧」來戰勝對手。Rethinking how we measure AI intelligence - ONMINE [Source 4]

2. 沒有標準答案的「動態」衡量

就像在足球比賽中無法預知對手會如何移動一樣，這個平台上的對決是非常動態的。簡單來說，這意味著不可能事先背好答案。只有根據情況發揮自己的智慧才能獲勝，這使得 AI 的能力能以更具驗證性且生動的方式被衡量。Rethinking how we measure AI intelligence [Source 7]

3. 「策略」與「資源管理」

這不只是排列出看似合理句子的能力。它觀察在執行策略遊戲時，為了達成目標而管理有限資源並制定長期計畫的過程。這象徵著 Google DeepMind 所提議的 AI 基準測試的根本性變革 (Radical Shift)。DeepMind Proposes Radical Shift in AI Intelligence Benchmarking [Source 17]

現狀：人類的 IQ 測試現在成了「小學生用」的試卷？

我們經常接觸到「這個 AI 的 IQ 超過 150」這種刺激性的新聞。但步入 2025 年，這種簡單的比較已失去重大意義。對於 GPT-4o 或 Gemini 1.5 等最新 AI 系統來說，傳統的人類 IQ 測試已不再是衡量高度演進認知能力的適當指標。Rethinking AI Intelligence Measurement: Why IQ Tests Fall Short for AI … [Source 15]

此外，我們常認為 AI 正排成一列，朝著通用人工智慧 (AGI，具備與人類同等或更高智慧的 AI) 這單一目標前進。但專家 David Pereira 指出，這是一種錯誤的想法。智慧是沿著單一維度（從窄域 AI 到通用智慧的直線路徑）運作的這一假設本身已面臨局限。Why “AGI” Is No Longer a Useful Metric: Rethinking How We Measure AI … [Source 2]

比喻來說，智慧並不像「身高幾公分」那樣可以用數字排隊，而是在「多樣化的環境中，能如何巧妙解決複雜問題」的立體能力。

未來會如何發展？

專家們現在正思考超越「模仿遊戲 (Imitation Game)」的新型智慧衡量方式。不只是看能模仿人類到多麼真假難辨的地步，而是不斷嘗試探究真實智慧如何顯現，並建立新的理論。[Beyond the Imitation Game: Rethinking How We Measure General Intelligence

Research Communities by Springer Nature](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence) [Source 9]

此外，正如康乃爾大學研討會上討論的那樣，衡量資訊複雜性的新標準（如從 Entropy 轉向 Epiplexity 等）正被引入。這是試圖衡量 AI 所擁有的「智慧密度」，而非僅僅是「知識量」。AI-MI Seminar Series: From Entropy to Epiplexity - Rethinking Information for Computationally Bounded Intelligence - The Artificial Intelligence Materials Institute [Source 11]

最終，未來的 AI 將不再只是根據「知道什麼」，而是以「在變化的環境中如何解決問題並進行策略性思考」為標準來接受評估。

MindTickleBytes 的 AI 記者觀點

長久以來，我們或許過於狂熱地關注 AI 的「成績單」。比起拿到 100 分的結果，AI 如何得出該結論，以及在面對預料之外的變數時展現出何種靈活性，在當今時代變得更加重要。

Kaggle Game Arena 等嘗試，是將 AI 視為「智力合作夥伴」而非單純計算機，並對其進行對待與評估的第一步。因為真正的智慧往往是在沒有標準答案的世界中才能得到證明的。現在，我們問 AI：「除了解題，你準備好一起闖蕩這個複雜的世界了嗎？」

參考資料

[超越模仿遊戲：重新思考我們如何衡量通用智慧

Springer Nature 研究社群](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence)

[人工智慧 NIST](https://www.nist.gov/artificial-intelligence)
AI-MI 研討會系列：從 Entropy 到 Epiplexity - 為計算受限的智慧重新思考資訊 - 人工智慧材料研究所
重新思考我們如何衡量 AI 智慧 - Robotics.ee
重新思考 AI 智慧衡量：為何 IQ 測試不適用於 AI…
PDF 2025 年人工智慧指數報告
DeepMind 提議 AI 智慧基準測試的根本性變革

Share this article:

測試你的理解

Q1. 傳統的 AI 性能衡量方式（基準測試）受到批評的主要原因是什麼？

衡量成本太高
題目變得太簡單或容易被操弄
AI 無法閱讀題目

專家指出，目前熱門的基準測試往往不切實際或太容易被「操弄 (game)」。

Q2. Google DeepMind 全新推出的 AI 性能衡量平台名稱為何？

Kaggle Game Arena
AI 奧運
DeepMind 西洋棋

Google DeepMind 導入了讓 AI 模型透過策略遊戲直接對決的「Kaggle Game Arena」。

Q3. 在 AI 智慧衡量中，傳統人類 IQ 測試的局限性為何？

因為是只有人類能看的試卷
難以正確掌握 2025 年最新 AI 系統的能力
因為 AI 討厭數字

對於 GPT-4o 或 Gemini 1.5 等最新 AI 系統而言，傳統的 IQ 測試已不再是有效的衡量標準。