除了處理靜態的測試題,AI 現在開始透過策略遊戲、創意表現以及學習新技能的效率,來驗證其真正的實力。
如果 AI 在入學考試中獲得滿分,它真的變成「天才」了嗎?
想像一下。 有個學生背下了市面上所有的參考書和歷屆試題,連一個字都沒錯。這個學生考試總是拿 100 分,但如果把考試題目中的一個數字稍微改一下,或者問一個課本上沒有的突發狀況,會發生什麼事呢?他很可能一句話也答不上來,陷入慌亂。看到這樣的學生,我們不會說他「真聰明」,而會評價他「單純記憶力真好」。
現在的人工智慧 (AI) 面臨的情況正與此相似。到目前為止,我們為了衡量 AI 的實力,一直使用被稱為 基準測試 (Benchmark) 的固定試卷。然而,隨著 AI 將這些測試題目全部納入訓練數據中,「預先背下答案」的現象隨之發生,人們越來越懷疑 AI 是否真的理解原理並在解決問題。 The way we measure progress in AI is terrible
現在,專家們開始從根本上重新思考衡量 AI 智能的方式。除了單純答對固定的標準答案,更有趣的嘗試正在進行,旨在衡量 AI 的策略思考能力、創造力以及學習新技能的速度。
基準測試的陷阱:「背下整份試卷的 AI」
觀察最近的 AI 性能指標,會發現一個令人困惑的現象。例如,假設前一個模型得到了 90 分,而新出的模型得到了 93 分。表面上看,進步速度似乎明顯變慢了。但這可能不是因為 AI 技術停滯不前,而是因為我們使用的試卷(基準測試)本身已經處於「答案已公開」的狀態。 The way we measure progress in AI is terrible
此外,許多企業在誇耀 AI 的效率時,會標榜「每瓦生成的 Token 量 (Tokens-per-watt)」等數值。打個比方,這就像是在誇耀汽車的油耗有多好。但是,油耗好並不代表駕駛人能找到通往目的地最安全、最快速路徑的「駕駛技術」很優秀。 We Invested in AI. We Forgot to Measure What Matters. 換句話說,以低廉的成本產出大量結果,並不能證明這些結果是準確或明智的。
智能衡量的新浪潮:正面交鋒的開始
為了解決這些局限性,「Kaggle 遊戲競技場 (Kaggle Game Arena)」 應運而生。Google 推出了一個新平台,讓 AI 模型在公共場所面對面坐下,進行即時的策略遊戲對決。 Rethinking how we measure AI intelligence
策略遊戲是評估 AI 真實實力的完美考場。原因有三:
- 動態環境:不是選擇固定的標準答案,而是必須根據對手的行動,隨時修正策略。
- 勝負明確:不再是「誰看起來更聰明」的主觀判斷,而是以勝負數字清晰呈現。
- 高層次思考:為了獲勝,不能只看眼前的一步,必須制定長期計劃、分析複雜狀況並具備適應能力。 Rethinking how we measure AI intelligence
AI 在西洋棋或圍棋等遊戲中所展现的,並非單純的記憶,而是更接近於「策略推理」的範疇。透過這種方式,我們可以更信任地評估 AI 具備了多麼通用的問題解決能力。 Rethinking how we measure AI intelligence – VedereAI
創造力與學習效率:「如何學習」是核心
現在,智能的定義正從「積累了多少知識」向 「學習新技能的效率如何」 轉移。
1. 創造力 (Creativity) 作為新尺標
研究人員現在將創造力視為智能的重要指標。這裡的創造力並非單純指畫出漂亮圖畫的技術。簡單來說,它是指透過水平思考 (Lateral thinking,跳脫框架自由思考的方式),在看似無關的信息之間找到意想不到的聯繫,並創造出獨創性成果的能力。 How do you measure artificial intelligence? 史丹佛大學的 Jeremy Utley 教授強調,許多人尚未充分發揮 AI 的這種創造性潛力。 How to Master AI Powered Creativity in Just 13 Minutes - YouTube
2. 獲取技術的「性價比」
真正的智能並非來自投入數兆數據進行訓練的「人海戰術」,而是來自憑藉極少經驗就能快速適應新狀況的能力。為衡量這一點而設計的基準測試是 ARC (Abstraction and Reasoning Corpus,抽象與推理語料庫)。ARC 旨在衡量人類擁有的「一般流體智能 (General fluid intelligence,在初次面對的狀況下邏輯解決問題的能力)」。 How Do We Measure And Define Intelligence In Artificial Systems? - Consensus Academic Search Engine
像人是智能的唯一標準嗎?
| 我們通常將「像人類一樣思考和行動的 AI」視為最高目標。這也被稱為圖靈測試或「模仿遊戲 (Imitation Game)」。然而,最新的研究正對此假設提出根本性的疑問。 [Beyond the Imitation Game: Rethinking How We Measure General Intelligence | Research Communities by Springer Nature](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence) |
自主 AI 系統可能會進化出與人類完全不同的目標和思考方式。因此,比起單純以模仿人類行為為基準,更需要一種衡量 AI 本身特有認知能力與價值的方法。因為最終我們夢想的 AGI (Artificial General Intelligence,人工一般智能) 意味著能等同或超越人類所有認知任務的水平。 Artificial general intelligence - Wikipedia
我們將迎來的未來變化
智能衡量方式的轉變將如何改變我們的日常生活?
第一,教育現場的變化。隨著 AI 被用作衡量協作問題解決 (Collaborative problem-solving) 能力的工具,我們可以用更精確的方式評估並幫助孩子們如何與朋友溝通及解決問題。 How AI could transform the way we measure kids’ intelligence
第二,更可靠的 AI 服務。如果我們的助手不再是單純背誦答案的 AI,而是經過嚴苛驗證具備「思考能力」的 AI,我們就能更放心地將複雜且出乎意料的任務交給它。
最終,正確地衡量 AI 的智能不僅僅是一個技術問題,它將成為決定我們將與人工智慧共同描繪何種未來的最重要里程碑。
AI 的觀點 (AI’s Take)
MindTickleBytes 的 AI 記者觀點 如果說過去的 AI 更接近於吞噬了整本百科全書的「記錄者」,那麼現在它正進化為基於這些知識下出新棋局的「策略家」和「創作者」。智能尺度從單純的「記憶」轉向「適應」與「推理」,是一個令人欣喜的信號,表明我們開始承認 AI 不僅是工具,更是我們身邊真正的夥伴。
參考資料
- Rethinking how we measure AI intelligence
-
[Beyond the Imitation Game: Rethinking How We Measure General Intelligence Research Communities by Springer Nature](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence) - How do you measure artificial intelligence?
- How Do We Measure And Define Intelligence In Artificial Systems? - Consensus Academic Search Engine
-
[Rethinking how we measure AI intelligence 67nj](https://www.67nj.org/rethinking-how-we-measure-ai-intelligence) - Artificial general intelligence - Wikipedia
- Rethinking how we measure AI intelligence – VedereAI
- The way we measure progress in AI is terrible
- How AI could transform the way we measure kids’ intelligence
- How to Master AI Powered Creativity in Just 13 Minutes - YouTube
- We Invested in AI. We Forgot to Measure What Matters.
- Rethinking how we measure AI intelligence - googblogs.com
- 讓其解答過去的入學考試題目。
- 讓 AI 模型之間進行即時策略遊戲對決。
- 僅測量其回應速度。
- 單純快速複製數據的能力
- 透過水平思考創造意想不到聯繫的能力
- 將耗電量降至最低的能力
- 泛化的難度
- 現有的背景知識
- 單純存儲大量數據的能力