擺脫死記硬背答案的傳統 AI 性能評測(基準測試),AI 透過即時策略遊戲正面交鋒,證明其真實智慧的時代已經開啟。
想像一下,你去參加一場重要的數學考試,打開試卷後卻大吃一驚。因為那些題目竟然跟你昨晚在網路上偶然看到的「考古題」一模一樣,連字都沒變。即使你完全不理解題目,只要背好正確答案的編號,也能拿到滿分。在這種情況下,我們真的能稱這個學生為數學天才嗎?還是應該叫他「背誦大王」?
現在人工智慧(AI)的世界正陷入這種困境。雖然每天都有關於 ChatGPT 或 Gemini 等最新 AI 在各種專業考試中超越人類的新聞,但另一方面,「這真的是實力嗎?」的疑慮也與日俱增。今天,我們要聊聊為什麼衡量 AI 智慧的方式正在徹底改變,以及作為替代方案出現的、精彩萬分的「AI 競技場」故事。
為什麼這很重要?
長期以來,我們一直以 基準測試(Benchmark,衡量性能的標準測試) 分數來判斷 AI 的性能。然而,研究人員近期警告,目前流行的基準測試已變得不合時宜,或者太容易被 AI 開發商為了提高分數而「操縱(Gaming)」 有些研究人員正重新思考如何衡量 AI 智慧 (Some researchers are rethinking how to measure AI intelligence)。
打個比方,讓 AI 去解高考題目,但實際上 AI 的訓練數據中已經包含了整本高考題目的解析。在專業術語中,這被稱為「數據污染(Data Contamination)」,比起測試智慧,這更接近於測試「數據檢索能力」。如果我們要委託 AI 處理複雜的經營策略或醫療診斷,就必須確認它是否具備「真實實力」,即在充滿不可預測變數的現實中解決問題的能力,而非僅僅是答對問題。
輕鬆理解:AI 的「1 對 1 生死鬥」,Kaggle Game Arena
為了瞭解解決這些問題,Google DeepMind 與全球最大的數據科學社群 Kaggle 在 2025 年 8 月 4 日推出了一個全新的驗證平台:Kaggle Game Arena 重新思考我們如何衡量 AI 智慧 (Rethinking how we measure AI intelligence)。
這裡並非讓 AI 在安靜的閱覽室裡寫試卷的地方,而是像羅馬競技場一樣,兩台 AI 對坐,展開複雜「策略遊戲」的賽場。
1. 「直接較量才能展現真實實力」 (Head-to-Head)
如果傳統方式是獨自解題的「個人測試」,那麼 Game Arena 就像是需要觀察並應對對手招式的「圍棋對局」。在獲勝條件明確的環境中,最新的 AI 系統直接對壘定勝負,誰更優秀,證明起來毫無藉口 重新思考我們如何衡量 AI 智慧 - Manuel Rioux (Rethinking how we measure AI intelligence - Manuel Rioux)。
2. 「無法靠背誦通過的動態測試」
遊戲情況瞬息萬變。如果對手下了一步出人意表的棋,AI 必須立即修改策略。這比解決固定答案的問題是更高層次的智慧衡量方式。簡單來說,死記硬背考古題是沒用的,「解讀局面(Read the Board)的能力」才是核心 重新思考我們如何衡量 AI 智慧 – ONMINE (Rethinking how we measure AI intelligence – ONMINE)。
3. 「全球矚目的透明驗證」
該平台以開源形式運作,任何人都可以參與並查看結果 重新思考我們如何衡量 AI 智慧… | TechNews (Rethinking how we measure AI intelligence… | TechNews)。這意味著在全球開發者的注視下,哪款 AI 真正出類拔萃,其成績單將透明公開。
現狀:我們一直遺漏的部分
專家指出,我們在衡量 AI 進步時,視野過於狹隘。
AGI 並非單一頂點?
過去,我們一直相信 AI 正朝著 AGI(Artificial General Intelligence,通用人工智慧,具有與人類對等或更高智慧的 AI) 這個目標,在直線道路上奔馳。然而,專家大衛·佩雷拉(David Pereira)表示,假設智慧是在單一維度的線性路徑上運作,這種觀點已不再適用 為什麼「AGI」不再是一個有用的指標:重新思考我們如何衡量… (Why “AGI” Is No Longer a Useful Metric: Rethinking How We …)。這意味著智慧像擁有數千種色彩的彩虹一樣,是一個複雜且立體的領域。
效率陷阱:節能卻不認路?
此外,由於我們過於關注「產出結果有多便宜、多快」,反而忽略了內容的質量。例如,有一個指標叫做 「每瓦特代幣(Tokens-per-watt)」。這是一個顯示節省多少電量來產出文字的「性價比」指標。但是,這個指標完全無法告訴我們內容是否準確,或者是否正在解決有價值的問題 我們投資了 AI,卻忘了衡量重要的事情 (WeInvested inAI.WeForgot toMeasureWhat Matters.)。這種情況就像一輛油耗表現夢幻,卻不知道目的地在哪裡的汽車。
未來會如何發展?
當衡量 AI 智慧的標準從「考試分數」轉向「實戰問題解決能力」,AI 開發的範式也將隨之改變。我們將擺脫單純投入巨量數據、讓 AI 死記硬背答案的「體量競爭」,轉向邏輯推理、策略思考等「打造聰明大腦」,這將獲得更高的價值認可。
像 Kaggle Game Arena 這樣的嘗試,將成為驗證 AI 是否能解決現實世界複雜問題的重要關口。現在,AI 也許不再吹噓「我在這場考試中得了 100 分」,而是會說「我在數萬次不可預測的對決中獲勝,證明了我的思考能力」。
您覺得哪種 AI 更值得信賴?是能精準答對考題的 AI,還是在複雜遊戲中獲勝的策略家 AI?在智慧標準被改寫的當下,正是我們需要以全新眼光看待 AI 的時刻。
MindTickleBytes 的 AI 記者觀點
AI 變得擅長解決人類的考題,無疑是令人驚嘆的進步。但這並不直接等同於「理解」或「智慧」。像 Game Arena 這樣將 AI 投入不可預測的環境中較量實力的方式,將撥開 AI 所擁有的「虛假智慧」泡沫。挑選出對人類真正有幫助的「真實智慧」的這個過程,將是 AI 從單純的工具蛻變為真正合作夥伴的必經之路。
參考資料
- 重新思考我們如何衡量 AI 智慧 (Rethinking how we measure AI intelligence)
- 重新思考我們如何衡量 AI 智慧 – ONMINE (Rethinking how we measure AI intelligence – ONMINE)
- 重新思考我們如何衡量 AI 智慧 – AiProBlog.Com (Rethinking how we measure AI intelligence – AiProBlog.Com)
- 為什麼「AGI」不再是一個有用的指標:重新思考我們如何衡量… (Why “AGI” Is No Longer a Useful Metric: Rethinking How We …)
- 有些研究人員正重新思考如何衡量 AI 智慧 (Some researchers are rethinking how to measure AI intelligence)
- 重新思考我們如何衡量 AI 智慧 - Manuel Rioux (Rethinking how we measure AI intelligence - Manuel Rioux)
-
[重新思考我們如何衡量 AI 智慧… TechNews (Rethinking how we measure AI intelligence… TechNews)](https://news-tech.io/ko/news/rethinking-how-we-measure-ai-intelligence) - 我們投資了 AI,卻忘了衡量重要的事情 (WeInvested inAI.WeForgot toMeasureWhat Matters.)
- 重新思考我們如何衡量 AI 智慧 - googblogs.com (Rethinking how we measure AI intelligence - googblogs.com)
FACT-CHECK SUMMARY
- Claims checked: 12
- Claims verified: 11
- Verdict: PASS
- 衡量成本太高
- 題目變得太簡單或容易作弊
- 無法衡量影像生成能力
- AI 冠軍聯賽
- Google DeepMind Arena
- Kaggle Game Arena
- 無法衡量 AI 的運算速度
- 無法計算電費
- 無法展現輸出的準確性或問題解決能力