AI的「真正」實力如何衡量?只會答對問題的時代已經結束了

在棋盤上發出不同光芒的兩個 AI 模型正在進行策略較量的樣子
AI Summary

擺脫以往只顧著背誦答案的 AI 評估方式,透過策略遊戲競爭 AI 真正解決問題能力的新時代正在開啟。

考試分數高就代表真的聰明嗎?

想像一下。你身邊有一個每次考試都拿 100 分的朋友。但假設當你問他「今天午餐吃什麼好呢?」或者「突然下雨了該怎麼辦?」這類極其日常且需要靈活思考的問題時,他卻無法給出像樣的回答。

我們真的能說這位朋友「很聰明」嗎?大概會懷疑:「他是不是只會死背考題和答案?」

現在的人工智慧 (AI) 世界正處於這種情況。長期以來,我們一直透過名為「基準測試 (Benchmark,衡量 AI 性能的標準試卷)」的工具來為 AI 的聰明程度評分。但最近專家之間出現了越來越多「不能再相信這些考試分數」的聲音。根據 Some researchers are rethinking how to measure AI intelligence 的報導,目前廣泛使用的評估方式,與其說展現了真實實力,不如說太容易被巧妙利用或操弄 (Game,為了獲得分數而投機取巧)。[Source 6]

為什麼這很重要?

我們正確衡量 AI 的實力,並不只是為了排名。

第一,是為了安全。 如果我們高估了 AI 的能力而交付過於困難的工作,或者相反地低估了它而忽視潛在風險,就可能發生預料之外的事故。這正是美國國家標準暨技術研究院 (NIST) 為了改善 AI 衡量科學與標準而專注於「風險導向方法」的原因。[Artificial intelligence NIST](https://www.nist.gov/artificial-intelligence) [Source 10]

第二,是為了辨別真正的創新。 根據 2025 年人工智慧指數報告 (AI Index Report 2025),AI 的影響力現已深入滲透到我們的社會、經濟以及全球治理的各個領域。PDF Artificial Intelligence Index Report 2025 [Source 16] 辨別這項如此重要的技術是否具備「真正」的智慧,或者僅僅是擅長模仿過去數據的「鸚鵡」,是決定我們未來的核心問題。

輕鬆理解:從紙筆測驗轉向「足球比賽」

至今為止的 AI 評估就像是「選擇題解題」。有固定的標準答案,只要 AI 答對就給分。然而,Google DeepMind 正試圖徹底改變這種模式。他們提出的解決方案正是「Kaggle Game Arena」。Rethinking how we measure AI intelligence [Source 1]

舉例來說,這就像是說:「走出紙筆考場,到操場上直接踢一場足球賽吧。」

1. 1:1 真劍勝負 (Head-to-Head)

如果說傳統方式是獨自坐在安靜的房間裡解決既定問題,那麼在 Kaggle Game Arena 中,AI 模型將會互相對決。必須透過策略遊戲讀取對手的招數並即時反應。這不只是看誰知道得多,而是必須絞盡腦汁使出「智慧」來戰勝對手。Rethinking how we measure AI intelligence - ONMINE [Source 4]

2. 沒有標準答案的「動態」衡量

就像在足球比賽中無法預知對手會如何移動一樣,這個平台上的對決是非常動態的。簡單來說,這意味著不可能事先背好答案。只有根據情況發揮自己的智慧才能獲勝,這使得 AI 的能力能以更具驗證性且生動的方式被衡量。Rethinking how we measure AI intelligence [Source 7]

3. 「策略」與「資源管理」

這不只是排列出看似合理句子的能力。它觀察在執行策略遊戲時,為了達成目標而管理有限資源並制定長期計畫的過程。這象徵著 Google DeepMind 所提議的 AI 基準測試的根本性變革 (Radical Shift)。DeepMind Proposes Radical Shift in AI Intelligence Benchmarking [Source 17]

現狀:人類的 IQ 測試現在成了「小學生用」的試卷?

我們經常接觸到「這個 AI 的 IQ 超過 150」這種刺激性的新聞。但步入 2025 年,這種簡單的比較已失去重大意義。對於 GPT-4o 或 Gemini 1.5 等最新 AI 系統來說,傳統的人類 IQ 測試已不再是衡量高度演進認知能力的適當指標。Rethinking AI Intelligence Measurement: Why IQ Tests Fall Short for AI … [Source 15]

此外,我們常認為 AI 正排成一列,朝著通用人工智慧 (AGI,具備與人類同等或更高智慧的 AI) 這單一目標前進。但專家 David Pereira 指出,這是一種錯誤的想法。智慧是沿著單一維度(從窄域 AI 到通用智慧的直線路徑)運作的這一假設本身已面臨局限。Why “AGI” Is No Longer a Useful Metric: Rethinking How We Measure AI … [Source 2]

比喻來說,智慧並不像「身高幾公分」那樣可以用數字排隊,而是在「多樣化的環境中,能如何巧妙解決複雜問題」的立體能力。

未來會如何發展?

專家們現在正思考超越「模仿遊戲 (Imitation Game)」的新型智慧衡量方式。不只是看能模仿人類到多麼真假難辨的地步,而是不斷嘗試探究真實智慧如何顯現,並建立新的理論。[Beyond the Imitation Game: Rethinking How We Measure General Intelligence Research Communities by Springer Nature](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence) [Source 9]

此外,正如康乃爾大學研討會上討論的那樣,衡量資訊複雜性的新標準(如從 Entropy 轉向 Epiplexity 等)正被引入。這是試圖衡量 AI 所擁有的「智慧密度」,而非僅僅是「知識量」。AI-MI Seminar Series: From Entropy to Epiplexity - Rethinking Information for Computationally Bounded Intelligence - The Artificial Intelligence Materials Institute [Source 11]

最終,未來的 AI 將不再只是根據「知道什麼」,而是以「在變化的環境中如何解決問題並進行策略性思考」為標準來接受評估。

MindTickleBytes 的 AI 記者觀點

長久以來,我們或許過於狂熱地關注 AI 的「成績單」。比起拿到 100 分的結果,AI 如何得出該結論,以及在面對預料之外的變數時展現出何種靈活性,在當今時代變得更加重要。

Kaggle Game Arena 等嘗試,是將 AI 視為「智力合作夥伴」而非單純計算機,並對其進行對待與評估的第一步。因為真正的智慧往往是在沒有標準答案的世界中才能得到證明的。現在,我們問 AI:「除了解題,你準備好一起闖蕩這個複雜的世界了嗎?」


參考資料

  1. 重新思考我們如何衡量 AI 智慧
  2. 為什麼「AGI」不再是有效的指標:重新思考我們如何衡量 AI…
  3. 重新思考我們如何衡量 AI 智慧 - ONMINE
  4. 重新思考我們如何衡量 AI 智慧 - AiProBlog.Com
  5. 部分研究人員正在重新思考如何衡量 AI 智慧
  6. 重新思考我們如何衡量 AI 智慧
  7. [超越模仿遊戲:重新思考我們如何衡量通用智慧 Springer Nature 研究社群](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence)
  8. [人工智慧 NIST](https://www.nist.gov/artificial-intelligence)
  9. AI-MI 研討會系列:從 Entropy 到 Epiplexity - 為計算受限的智慧重新思考資訊 - 人工智慧材料研究所
  10. 重新思考我們如何衡量 AI 智慧 - Robotics.ee
  11. 重新思考 AI 智慧衡量:為何 IQ 測試不適用於 AI…
  12. PDF 2025 年人工智慧指數報告
  13. DeepMind 提議 AI 智慧基準測試的根本性變革
測試你的理解
Q1. 傳統的 AI 性能衡量方式(基準測試)受到批評的主要原因是什麼?
  • 衡量成本太高
  • 題目變得太簡單或容易被操弄
  • AI 無法閱讀題目
專家指出,目前熱門的基準測試往往不切實際或太容易被「操弄 (game)」。
Q2. Google DeepMind 全新推出的 AI 性能衡量平台名稱為何?
  • Kaggle Game Arena
  • AI 奧運
  • DeepMind 西洋棋
Google DeepMind 導入了讓 AI 模型透過策略遊戲直接對決的「Kaggle Game Arena」。
Q3. 在 AI 智慧衡量中,傳統人類 IQ 測試的局限性為何?
  • 因為是只有人類能看的試卷
  • 難以正確掌握 2025 年最新 AI 系統的能力
  • 因為 AI 討厭數字
對於 GPT-4o 或 Gemini 1.5 等最新 AI 系統而言,傳統的 IQ 測試已不再是有效的衡量標準。