AI 是否已追上藝術家的「感性」？150 萬名專家驗證的「創意成績單」

AI Summary

最新研究顯示，AI 在特定的創意測試中超越了平均水平的人類，但目前尚不存在既能完全遵循創作者意圖，又具備技術準確性的「完美 AI 模型」。

想像一下，您正在為即將開業的麵包店設計標誌。您要求人工智慧 (AI) 「畫一個帶有溫暖、舒適感覺的吐司形狀標誌」。AI 瞬間交出了數十個方案。但仔細一看，有些標誌的吐司形狀變形了，有些則是吐司很完美，但色調太冷了。當您再次命令「把色調改成更偏黃色一點」時，這次顏色變好了，但吐司卻突然變成了可頌。

我們通常相信創意是人類特有的「聖地」。但最近，我們生活在一個 AI 寫的詩獲得文學獎、AI 畫的圖在拍賣會上高價成交的時代。那麼，本質上的疑問便產生了：「AI 真的有創意嗎？還是它只是一台能精確模仿人類數據的機器？」

為了回答這個問題，多達 150 萬名創作專家挺身而出。Contra Labs 發布的「人類創意基準測試 (Human Creativity Benchmark)」是首份科學且系統化衡量 AI 創意性能的大型成績單。

這為什麼很重要？

過去，AI 是否能「聽懂人話」很重要，但現在的核心在於「如何優雅地 (Style)、以何種氛圍 (Tone)、符合何種品味 (Taste) 來生成結果」 Contra Labs - 人類創意基準測試。打個比方，這就像是 AI 已經不再是剛學會說話的小孩，而是進入了被評估是否具備「專業助理」素質的階段。

對我們一般的受眾來說，這項研究之所以重要，主要有三個原因：

學會如何正確驅使 AI：了解哪種 AI 能聽懂我的意圖、哪種 AI 技術優越，能顯著提升工作效率。
「真正創意」的定義正在改變：創意的定義正在演化，不再僅僅是創造世界上不存在的新事物，而是在複雜的約束條件下，如何精妙地組合既有想法 arxiv.org/abs/2604.19799。
人類的角色變得更加明確：無論 AI 生成的結果多麼出色，最終決定「這就是我的風格！」的「最終審核者」始終是人類。這項研究清楚地展示了那條界線在哪裡。

「創意」也能用數字衡量嗎？

創意是非常主觀的。對某些人來說是美麗的名畫，對另一些人來說可能就像塗鴉。為了規避這個問題，Contra Labs 建立了兩個衡量創意的核心指標：「收斂 (Convergence)」與「發散 (Divergence)」 新創意基準測試顯示，目前尚無 AI 模型兼具準確性與可控性。

收斂 (Convergence)：遵循大家公認的「設計典範」的能力。簡單來說，就像廚師準確地按照食譜調味一樣。
發散 (Divergence)：反映創作者獨特意圖或個性，能讓人說出「這就是我的風格！」的能力。就像廚師根據客人挑剔的口味，極其微細地調整鹽量的感覺。

研究團隊收集了圖形設計、寫作等 5 個創作領域的 1.5 萬多份專家判定數據人類創意基準測試 - LinkedIn。超過 150 萬名經過驗證的專家仔細審查了 AI 生成的結果並進行評分 Contra Labs - 人類創意基準測試。

AI 廚師與「口味」之戰：深入淺出

為了幫助理解，讓我們再多打幾個比方。目前的 AI 就像一位博學多才的「天才實習廚師」。

第一個比方：食譜 vs 一撮鹽 AI 背下了世界上所有的食譜（數據）。所以如果您說「做義大利麵」，它會端出一盤非常標準且精美的義大利麵（收斂）。但如果您提出非常微妙的要求，例如「今天淡一點，但要帶有昨天吃的辣炒年糕那種辛辣感」，它就會開始慌張（發散）。它還缺乏那種能將昨天辣炒年糕的回憶融入一盤義大利麵中的「一撮鹽」的靈感。

第二個比方：用樂高積木創造的創意 過去我們認為創意是「從無到有的靈光一閃」。但這項研究將創意定義為「想法的轉換與合成 (Synthesis)」 arxiv.org/abs/2604.19799。這就像是在擁有數萬億個樂高積木碎片散落的嵌入空間 (Embedding Space，AI 將單詞或圖像轉換為數字來理解的虛擬「思考室」)中，尋找所需的碎片並將其組合成世界上不存在的形狀的過程。

AI 戰勝了人類？令人驚訝的翻轉

也有令人震驚的結果。在特定的創意測試中，最新的 AI 系統得分高於人類平均水平 [研究人員針對 10 萬人進行 AI 創意測試

ScienceDaily](https://www.sciencedaily.com/releases/2026/01/260125083356.htm)。

在一項針對 10 萬人與 AI 進行一對一比較的研究中，生成式 AI 在想法的多樣性或新穎性方面遠遠超過了普通人的水平 [生成式 AI 時代的創意：創意夥伴關係的新紀元

ScienceDaily](https://www.sciencedaily.com/releases/2023/11/231120170939.htm)。這意味著 AI 已經超越了單純複製數據的階段，進入了能提出人類尚未想到的「出人意料的組合」的階段。

하지만 여기에는 미묘한 함정이 있습니다… 但這裡有一個微妙的陷阱。有人指出，仔細觀察 AI 生成的結果，會感覺到一種莫名的機械感，即「AI 味的外殼 (AI’ish veneer)」。專家們將這種細微的違和感形容為「滑膩感」或「數位指紋」 [人類創意基準測試 – 評估創意工作中的生成式 AI

Hacker News](https://news.ycombinator.com/item?id=47966484)。

為何目前尚無「完美 AI」

本次基準測試最重要的結論是：「目前尚不存在既技術準確、又易於隨心所欲控制的模型」 新創意基準測試顯示，目前尚無 AI 模型兼具準確性與可控性。

準確的模型：結果很棒，但當使用者要求「只稍微修改這部分」時，它會破壞整體風格或固執己見。
易於控制的模型：能精準聽懂使用者的話並很好地更改細節，但整體完成度較低或基本功不足。

這就像是在畫技高超但固執的藝術家，以及聽話但實力初級的學生之間做出選擇。根據研究，目前在所有類別中都沒有壓倒性領先的模型人類創意基準測試 - LinkedIn。

未來的創作將如何演變？

現在，創作不再是人類獨自苦思冥想的工作，而是正在演化為「人類-AI 共同創作過程 (HAI-CDP)」 探索人類-AI 共同創作中的創意：跨設計經驗的比較研究。

在此過程中，人類最需要的能力是「評估與精煉」。我們必須從 AI 噴湧出的數萬種想法中篩選出瑰寶，並根據 MAYa 原則進行打磨。

什麼是 MAYa 原則？ Most Advanced Yet Accessible 的縮寫，意為「必須達到最先進 (Advanced) 且能被人們接受 (Accessible) 的水平」人類-AI 共同創意：探索不同層次創意協作的協同效應。如果 AI 創造了太奇怪的東西，人類必須將其拉低到「大眾可理解的水平」；如果 AI 創造了太普通的東西，人類則必須給予「新刺激」以提升其價值。

하지만 주의할 점도 있습니다… 但也有需要注意的地方。過度依賴 AI 的建議，可能會讓我們面臨停止自主創意思考的風險生成式 AI 創意的悖論：高性能、類人偏見與有限的差異化評估。AI 只是顯示我們未曾走過之路的親切地圖，最終走完那條路並在目的地插上旗幟的主角是我們。

MindTickleBytes 的 AI 記者觀點

AI 登上 150 萬名專家的審判台這一事實本身，就證明了創意已不再是神祕的領域。未來的競爭力不在於「誰畫得更好」，而在於「誰能更精確地操縱 AI 來貫徹自己的品味」。您專屬的「一撮鹽」是什麼呢？在 AI 時代，您堅定的品味將成為您最強大的天賦。

參考資料

Contra Labs - 人類創意基準測試
[人類創意基準測試 – 評估創意工作中的生成式 AI Hacker News](https://news.ycombinator.com/item?id=47966484)
[2604.19799] 在生成式 AI 時代衡量創意：區分招聘與人才系統中人類與 AI 生成的創意表現

[Frontiers

探索人類-AI 共同創作中的創意：跨設計經驗的比較研究](https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2025.1672735/full)

生成式 AI 創意的悖論：高性能、類人偏見與有限的差異化評估 - PMC
人類-AI 共同創意：探索不同層次創意協作的協同效應
新創意基準測試顯示，目前尚無 AI 模型兼具準確性與可控性
人類創意基準測試 - LinkedIn
Contra Labs - 人類創意基準測試
人類創意基準測試 - 評估創意工作中的生成式 AI
人類創意基準測試 [AI 代理知識庫]
[研究人員針對 10 萬人進行 AI 創意測試 ScienceDaily](https://www.sciencedaily.com/releases/2026/01/260125083356.htm)

[Frontiers

生成式 AI 創意的悖論：高性能、類人偏見與有限的差異化評估](https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2025.1628486/full)

[生成式 AI 時代的創意：創意夥伴關係的新紀元 ScienceDaily](https://www.sciencedaily.com/releases/2023/11/231120170939.htm)

Share this article:

測試你的理解

Q1. 在本次基準測試中，評估 AI 模型性能時分為哪兩個核心類別？

速度與準確度
收斂 (Convergence) 與發散 (Divergence)
文本與圖像

研究團隊將 AI 評估分為「收斂」（遵循最佳實踐的能力）與「發散」（遵循個別創作者品味與意圖的能力）。

Q2. 根據研究結果，目前 AI 模型共同面臨的最大局限是什麼？

生成速度太慢
無法正確辨識顏色
不存在既準確又易於控制的模型

根據報告，目前尚不存在輸出結果既技術準確 (Correct) 又能根據使用者意圖精確控制 (Steerable) 的模型。

Q3. 在 AI 與人類的協作中，使用者在修改 AI 生成結果時所應用的原則是什麼？

最小努力原則
MAYa 原則
隨機選擇原則

使用者應用 MAYa 原則來精煉結果，即 AI 的生成物必須既先進 (Advanced) 又同時能被接受 (Accessible)。