為了超越現有基準測試的限制並衡量 AI 的真實推理能力,Google DeepMind 推出了「Kaggle Game Arena」,讓各個模型在策略遊戲中一決高下。
我們經常看到「這款 AI 聰明到能解大學入學試題」或「在律師資格考試中排名前 10%」之類的新聞。但這裡有一個值得深思的問題:這款 AI 真的理解問題並靠自己思考解題嗎?還是它只是預先背下了網路上流傳的考古題與答案,然後在考場上將其回想起來而已?
試著想像一下: 有個學生完全不懂數學原理,卻把數千本數學參考書的題目和答案全部背了下來。當這個學生在考試中拿到 100 分時,我們會說這個學生「數學很好」嗎?恐怕不會。這正是目前人工智能(AI)業界所面臨的困境。
為什麼這很重要?
衡量人工智慧智能的標準通常被稱為 基準測試(Benchmark)。到目前為止,為了確認 AI 有多聰明,我們主要採用以文本為主的考試。然而,最近專家們紛紛批評目前的基準測試方式不足以評估模型的實際能力,甚至認為其「太容易作弊(Too easy to game)」 Some researchers are rethinking how to measure AI intelligence。
如果 AI 只是在「裝作」解決問題,我們將難以把重要的商業決策交給它,或期待它能帶來複雜的科學發現。因此,區分 AI 是單純從訓練數據中回想起答案(Memorization,記憶),還是真的具備解決新問題的智能(Genuine reasoning,真正的推理),已變得至關重要 Rethinking how we measure AI intelligence (Google LLC)。
簡單來說,我們正處於一個必須確認 AI 究竟是「答案自動販賣機」還是「思考夥伴」的關鍵時刻。
智能測量法的演進:為什麼改遞「遊戲機」而非試卷?
為了搜救這些問題,Google DeepMind 提出了一個非常有趣的建議:公開了讓 AI 模型互相切磋、在策略遊戲中一決高下的 「Kaggle Game Arena」 Rethinking how we measure AI intelligence。
這可以比喻為:不給學生問答試卷,而是讓他們玩「西洋棋」或「圍棋」等遊戲。試卷的題目和答案是固定的,可以死記硬背;但遊戲會根據對手的招式,每秒都在發生變化。要應對對手的招式並取得勝利,單靠記憶過去的模式是不夠的,必須具備能分析每一刻的情況並制定最佳策略的「動態智能」。
Google 推出的 Kaggle Game Arena 透過以下方式驗證 AI 的真實實力:
- 強強對決 (Head-to-head):AI 模型就像職業電競選手一樣,直接以彼此為對手進行遊戲競爭 DeepMind Proposes Radical Shift in AI Intelligence Benchmarking。
- 動態測量:確認模型在實時變化的策略情境中,應變能力有多靈活,而非面對固定的問題 Rethinking how we measure AI intelligence。
- 明確驗證:由於遊戲結果有明確的勝負之分,因此更容易確認模型是真的解決了問題,還是僅憑運氣答對 Rethinking how we measure AI intelligence - ONMINE。
現狀:擺脫「智能的錯覺」
許多人指出,我們目前使用的許多基準測試分數可能會引發一種 「智能的錯覺 (Illusion of Intelligence)」。因為大型語言模型(LLM)雖然非常擅長匹配表面模式,但這並不代表它們具備與人類同等的真實思考能力 Beyond the Score: Rethinking How We Measure AI Brains。
甚至連傳統的人類 IQ 測試在測量 AI 能力時也顯示出侷限性。隨著 GPT-4o 或 Gemini 1.5 等最新模型的出現,現有的簡單認知能力測試已越來越難以分辨出它們的真實實力 Rethinking AI Intelligence Measurement: Why IQ Tests Fall Short for AI …。
此外,所謂的 通用人工智慧(AGI,具備與人類相當或更高智能的 AI) 概念本身也需要重新思考。因為智能並非僅朝單一方向延伸的直線路徑,而是一個包含創造力、共情能力、策略、邏輯等更為複雜且多面向的概念 Why “AGI” Is No Longer a Useful Metric: Rethinking How We Measure AI …。
未來會如何發展?
Google DeepMind 的這次嘗試,是將 AI 性能測量的典範從「結果(答對題目)」轉向「過程(策略性思考)」的重要第一步。未來,我們將不再只關注「這款 AI 得到幾分」這種以結果為中心的評價,而是會提出以下問題:
- 「這款模型在遇到意外情況時的應變有多靈活?」
- 「它如何看穿對手複雜的策略並找到解決方案?」
最終,AI 智能的測量將不再是靜止畫面中的考試,而是演變成如同活生生的生態系統般的動態評估。這種轉變將有助於我們不再僅將 AI 視為「便利的工具」,而是視為更安全、更可靠的「真正智能體」。
AI 的觀點
MindTickleBytes AI 記者的觀點: 「對 AI 來說,考試分數可能只是數字。真正的智能在於沒有正確答案的世界中找到出路的能力。希望 Google DeepMind 提出的『遊戲規則』能成為讓 AI 從單純的記憶天才成長為能獨立思考並行動的真正策略家的契機。因為現在的 AI 也該從死記考古題,轉向理解世界的學習了。」
參考資料
- Rethinking how we measure AI intelligence
- Why “AGI” Is No Longer a Useful Metric: Rethinking How We Measure AI …
- Rethinking how we measure AI intelligence - AiProBlog.Com
- Rethinking how we measure AI intelligence - ONMINE
- Some researchers are rethinking how to measure AI intelligence
- Rethinking how we measure AI intelligence
- Rethinking how we measure AI intelligence - 智源社区
- Beyond the Score: Rethinking How We Measure AI Brains
- Rethinking AI Intelligence Measurement: Why IQ Tests Fall Short for AI …
- Rethinking how we measure AI intelligence (Google LLC)
- DeepMind Proposes Radical Shift in AI Intelligence Benchmarking
- Rethinking how we measure AI intelligence - Robotics.ee
事實查核摘要
- 查核聲明數:11
- 驗證聲明數:11
- 結論:通過 (PASS)
- 消耗過多計算資源
- 可能只是單純記住網路數據來回答問題
- 問題難度太高
- Google Game Center
- DeepMind Chess Arena
- Kaggle Game Arena
- 難以背誦答案,且能確認動態能力
- 能更精準測量 AI 的硬體性能
- 能讓模型學習更多數據