最新研究顯示,AI 在特定的創意測試中超越了平均水平的人類,但目前尚不存在既能完全遵循創作者意圖,又具備技術準確性的「完美 AI 模型」。
想像一下,您正在為即將開業的麵包店設計標誌。您要求人工智慧 (AI) 「畫一個帶有溫暖、舒適感覺的吐司形狀標誌」。AI 瞬間交出了數十個方案。但仔細一看,有些標誌的吐司形狀變形了,有些則是吐司很完美,但色調太冷了。當您再次命令「把色調改成更偏黃色一點」時,這次顏色變好了,但吐司卻突然變成了可頌。
我們通常相信創意是人類特有的「聖地」。但最近,我們生活在一個 AI 寫的詩獲得文學獎、AI 畫的圖在拍賣會上高價成交的時代。那麼,本質上的疑問便產生了:「AI 真的有創意嗎?還是它只是一台能精確模仿人類數據的機器?」
為了回答這個問題,多達 150 萬名創作專家挺身而出。Contra Labs 發布的「人類創意基準測試 (Human Creativity Benchmark)」是首份科學且系統化衡量 AI 創意性能的大型成績單。
這為什麼很重要?
過去,AI 是否能「聽懂人話」很重要,但現在的核心在於「如何優雅地 (Style)、以何種氛圍 (Tone)、符合何種品味 (Taste) 來生成結果」 Contra Labs - 人類創意基準測試。打個比方,這就像是 AI 已經不再是剛學會說話的小孩,而是進入了被評估是否具備「專業助理」素質的階段。
對我們一般的受眾來說,這項研究之所以重要,主要有三個原因:
- 學會如何正確驅使 AI:了解哪種 AI 能聽懂我的意圖、哪種 AI 技術優越,能顯著提升工作效率。
- 「真正創意」的定義正在改變:創意的定義正在演化,不再僅僅是創造世界上不存在的新事物,而是在複雜的約束條件下,如何精妙地組合既有想法 arxiv.org/abs/2604.19799。
- 人類的角色變得更加明確:無論 AI 生成的結果多麼出色,最終決定「這就是我的風格!」的「最終審核者」始終是人類。這項研究清楚地展示了那條界線在哪裡。
「創意」也能用數字衡量嗎?
創意是非常主觀的。對某些人來說是美麗的名畫,對另一些人來說可能就像塗鴉。為了規避這個問題,Contra Labs 建立了兩個衡量創意的核心指標:「收斂 (Convergence)」與「發散 (Divergence)」 新創意基準測試顯示,目前尚無 AI 模型兼具準確性與可控性。
- 收斂 (Convergence):遵循大家公認的「設計典範」的能力。簡單來說,就像廚師準確地按照食譜調味一樣。
- 發散 (Divergence):反映創作者獨特意圖或個性,能讓人說出「這就是我的風格!」的能力。就像廚師根據客人挑剔的口味,極其微細地調整鹽量的感覺。
研究團隊收集了圖形設計、寫作等 5 個創作領域的 1.5 萬多份專家判定數據 人類創意基準測試 - LinkedIn。超過 150 萬名經過驗證的專家仔細審查了 AI 生成的結果並進行評分 Contra Labs - 人類創意基準測試。
AI 廚師與「口味」之戰:深入淺出
為了幫助理解,讓我們再多打幾個比方。目前的 AI 就像一位博學多才的「天才實習廚師」。
第一個比方:食譜 vs 一撮鹽 AI 背下了世界上所有的食譜(數據)。所以如果您說「做義大利麵」,它會端出一盤非常標準且精美的義大利麵(收斂)。但如果您提出非常微妙的要求,例如「今天淡一點,但要帶有昨天吃的辣炒年糕那種辛辣感」,它就會開始慌張(發散)。它還缺乏那種能將昨天辣炒年糕的回憶融入一盤義大利麵中的「一撮鹽」的靈感。
第二個比方:用樂高積木創造的創意 過去我們認為創意是「從無到有的靈光一閃」。但這項研究將創意定義為「想法的轉換與合成 (Synthesis)」 arxiv.org/abs/2604.19799。這就像是在擁有數萬億個樂高積木碎片散落的嵌入空間 (Embedding Space,AI 將單詞或圖像轉換為數字來理解的虛擬「思考室」)中,尋找所需的碎片並將其組合成世界上不存在的形狀的過程。
AI 戰勝了人類?令人驚訝的翻轉
| 也有令人震驚的結果。在特定的創意測試中,最新的 AI 系統得分高於人類平均水平 [研究人員針對 10 萬人進行 AI 創意測試 | ScienceDaily](https://www.sciencedaily.com/releases/2026/01/260125083356.htm)。 |
| 在一項針對 10 萬人與 AI 進行一對一比較的研究中,生成式 AI 在想法的多樣性或新穎性方面遠遠超過了普通人的水平 [生成式 AI 時代的創意:創意夥伴關係的新紀元 | ScienceDaily](https://www.sciencedaily.com/releases/2023/11/231120170939.htm)。這意味著 AI 已經超越了單純複製數據的階段,進入了能提出人類尚未想到的「出人意料的組合」的階段。 |
| 하지만 여기에는 미묘한 함정이 있습니다… 但這裡有一個微妙的陷阱。有人指出,仔細觀察 AI 生成的結果,會感覺到一種莫名的機械感,即「AI 味的外殼 (AI’ish veneer)」。專家們將這種細微的違和感形容為「滑膩感」或「數位指紋」 [人類創意基準測試 – 評估創意工作中的生成式 AI | Hacker News](https://news.ycombinator.com/item?id=47966484)。 |
為何目前尚無「完美 AI」
本次基準測試最重要的結論是:「目前尚不存在既技術準確、又易於隨心所欲控制的模型」 新創意基準測試顯示,目前尚無 AI 模型兼具準確性與可控性。
- 準確的模型:結果很棒,但當使用者要求「只稍微修改這部分」時,它會破壞整體風格或固執己見。
- 易於控制的模型:能精準聽懂使用者的話並很好地更改細節,但整體完成度較低或基本功不足。
這就像是在畫技高超但固執的藝術家,以及聽話但實力初級的學生之間做出選擇。根據研究,目前在所有類別中都沒有壓倒性領先的模型 人類創意基準測試 - LinkedIn。
未來的創作將如何演變?
現在,創作不再是人類獨自苦思冥想的工作,而是正在演化為「人類-AI 共同創作過程 (HAI-CDP)」 探索人類-AI 共同創作中的創意:跨設計經驗的比較研究。
在此過程中,人類最需要的能力是「評估與精煉」。我們必須從 AI 噴湧出的數萬種想法中篩選出瑰寶,並根據 MAYa 原則進行打磨。
什麼是 MAYa 原則? Most Advanced Yet Accessible 的縮寫,意為「必須達到最先進 (Advanced) 且能被人們接受 (Accessible) 的水平」 人類-AI 共同創意:探索不同層次創意協作的協同效應。如果 AI 創造了太奇怪的東西,人類必須將其拉低到「大眾可理解的水平」;如果 AI 創造了太普通的東西,人類則必須給予「新刺激」以提升其價值。
하지만 주의할 점도 있습니다… 但也有需要注意的地方。過度依賴 AI 的建議,可能會讓我們面臨停止自主創意思考的風險 生成式 AI 創意的悖論:高性能、類人偏見與有限的差異化評估。AI 只是顯示我們未曾走過之路的親切地圖,最終走完那條路並在目的地插上旗幟的主角是我們。
MindTickleBytes 的 AI 記者觀點
AI 登上 150 萬名專家的審判台這一事實本身,就證明了創意已不再是神祕的領域。未來的競爭力不在於「誰畫得更好」,而在於「誰能更精確地操縱 AI 來貫徹自己的品味」。您專屬的「一撮鹽」是什麼呢?在 AI 時代,您堅定的品味將成為您最強大的天賦。
參考資料
- Contra Labs - 人類創意基準測試
-
[人類創意基準測試 – 評估創意工作中的生成式 AI Hacker News](https://news.ycombinator.com/item?id=47966484) - [2604.19799] 在生成式 AI 時代衡量創意:區分招聘與人才系統中人類與 AI 生成的創意表現
-
[Frontiers 探索人類-AI 共同創作中的創意:跨設計經驗的比較研究](https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2025.1672735/full) - 生成式 AI 創意的悖論:高性能、類人偏見與有限的差異化評估 - PMC
- 人類-AI 共同創意:探索不同層次創意協作的協同效應
- 新創意基準測試顯示,目前尚無 AI 模型兼具準確性與可控性
- 人類創意基準測試 - LinkedIn
- Contra Labs - 人類創意基準測試
- 人類創意基準測試 - 評估創意工作中的生成式 AI
- 人類創意基準測試 [AI 代理知識庫]
-
[研究人員針對 10 萬人進行 AI 創意測試 ScienceDaily](https://www.sciencedaily.com/releases/2026/01/260125083356.htm) -
[Frontiers 生成式 AI 創意的悖論:高性能、類人偏見與有限的差異化評估](https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2025.1628486/full) -
[生成式 AI 時代的創意:創意夥伴關係的新紀元 ScienceDaily](https://www.sciencedaily.com/releases/2023/11/231120170939.htm)
- 速度與準確度
- 收斂 (Convergence) 與發散 (Divergence)
- 文本與圖像
- 生成速度太慢
- 無法正確辨識顏色
- 不存在既準確又易於控制的模型
- 最小努力原則
- MAYa 原則
- 隨機選擇原則