AI赶上艺术家的'感性'了吗？150万名专家验证的'创意成绩单'

AI Summary

最新研究表明，虽然AI在特定的创造力测试中超越了普通人类，但目前尚不存在既能完全遵循创作者意图，又在技术上保持精准的'完美AI模型'。

想象一下，你正在为你刚开业的面包店设计Logo。你要求人工智能（AI）“画一个给人感觉温暖、舒适的吐司形状的Logo”。AI瞬间给出了几十个方案。但仔细一看，有的Logo吐司形状扭曲了，有的吐司形状虽然完美，但色调太冷。当你再次命令“把颜色换成偏黄的暖色调”时，这次颜色好看了，但吐司却莫名其妙变成了可颂。

我们通常认为创造力是人类独有的“圣域”。然而，我们正生活在一个AI创作的诗歌获得文学奖、AI绘制的画作在拍卖会上高价成交的时代。那么，本质性的疑问随之而来：“AI真的有创意吗？还是说它仅仅是一个能精巧模仿人类数据的机器？”

为了回答这个问题，多达150万名创作专家挺身而出。Contra Labs发布的“人类创意基准（Human Creativity Benchmark）”是首份科学、系统地衡量AI创意性能的大规模成绩单。

为什么这很重要？

如果说过去AI的重要性在于它能否“听懂话”，那么现在核心在于“它能以多高的格调（Style）、什么样的氛围（Tone）、符合什么样的品味（Taste）来产出结果” Contra Labs - 人类创意基准。打个比方，这已经不是在评估一个刚学会说话的孩子，而是在评估一个“专业助手”的资质。

对于像我们这样的普通人来说，这项研究之所以重要，主要有三个原因：

学会如何正确驱动AI：了解哪种AI能听懂你的意图，哪种AI在技术上更卓越，可以显著提高工作效率。
“真正的创造力”被重新定义：创造力正在被重新定义为：不仅仅是创造世界上不存在的新事物，而是如何在复杂的约束条件下，巧妙地组合现有的想法 arxiv.org/abs/2604.19799。
人类的角色变得更加清晰：无论AI产出的结果多么出色，最终决定“这就是我的风格！”的“最终审批人”依然是人类。这项研究清晰地展示了这条界限在哪里。

“创造力”也能用数字衡量吗？

创造力是非常主观的。对某些人来说是美丽的杰作，对另一些人来说可能就像涂鸦。为了解决这个问题，Contra Labs制定了衡量创造力的两个核心标尺：“收敛（Convergence）”和“发散（Divergence）” 新创意基准显示，目前尚无AI模型能同时兼顾准确性与可操控性。

收敛（Convergence）：遵循大家公认的“符合设计准则”的最佳实践的能力。通俗地说，就像厨师严格按照食谱调味一样。
发散（Divergence）：反映创作者独特意图或个性，让人能说出“这正是我的风格！”的能力。这就像根据客人挑剔的口味，极细微地调整盐分量的感觉。

研究团队收集了平面设计、写作等5个创作领域的1.5万多条专家判断数据人类创意基准 - LinkedIn。超过150万名经过验证的专家对AI生成的结果进行了仔细审查和评分 Contra Labs - 人类创意基准。

AI厨师与“口味”之战：通俗理解

为了方便理解，我们再举几个例子。现在的AI就像一个读了很多书的“天才实习厨师”。

第一个比方：食谱 vs 一小撮盐 AI背下了世界上所有的食谱（数据）。所以当你要求“做一份意面”时，它会端出一份非常标准且美观的意面（收敛）。但如果你提出非常微妙的要求，比如“今天淡一点，但要有昨天吃的炒年糕那种辛辣感”，它就开始慌了（发散）。把昨天吃炒年糕的回忆融入到一盘意面中的那种“一小撮盐”的灵感，目前还是欠缺的。

第二个比方：用乐高积木创造创意 过去，人们认为创造力是“从无到有的闪现灵感”。但这项研究将创造力定义为“想法的转换与合成（Synthesis）” arxiv.org/abs/2604.19799。这就像是在散布着数万亿个乐高积木的嵌入空间（Embedding Space，AI将单词或图像转化为数字来理解的虚拟“思维室”）中，寻找所需的积木并组装成世界上从未有过的形状的过程。

AI赢了人类？惊人的反转

研究中也出现了令人震惊的结果。在特定的创造力测试中，最新的AI系统获得了比普通人类更高的分数 [研究人员针对10万名人类测试了AI的创造力

ScienceDaily](https://www.sciencedaily.com/releases/2026/01/260125083356.htm)。

在一项针对10万名人类与AI进行一对一比较的研究中，生成式AI在想法的多样性和新颖性方面远远超过了普通人的水平 [生成式AI时代的创造力：创意伙伴关系的新纪元

ScienceDaily](https://www.sciencedaily.com/releases/2023/11/231120170939.htm)。这意味着AI已经超越了简单的模仿，达到了能够提出人类尚未想到的“意外组合”的阶段。

但这里有一个微妙的陷阱。有观点指出，仔细观察AI产出的结果，会感觉到一种莫名的机械感，即“AI感的虚饰（AI’ish veneer）”。专家们将这种细微的违和感描述为“油腻感”或“数字指纹” [人类创意基准——评估创意工作中的生成式AI

Hacker News](https://news.ycombinator.com/item?id=47966484)。

为什么目前还没有“完美的AI”

此次基准测试最重要的结论是：“目前尚不存在既在技术上准确，又易于按我心意操控的模型” 新创意基准显示，目前尚无AI模型能同时兼顾准确性与可操控性。

准确的模型：结果很出色，但当用户要求“稍微改一下这部分”时，它要么破坏整体风格，要么固执己见。
易于操控的模型：能完美听懂用户的话并修改细节，但整体完成度较低或基本功不足。

这就像是在一个画功顶级但性格固执的艺术家，和一个听话但水平初级的学生之间做出选择。研究表明，目前还没有一个模型能在所有类别中占据压倒性的第一名人类创意基准 - LinkedIn。

未来的创作将如何演变？

现在的创作不再是人类独自苦思冥想的工作，而是正在演变为“人类-AI共同创作过程（HAI-CDP）” 探索人类-AI协同创作中的创造力：跨设计经验的对比研究。

在这个过程中，人类最需要的能力是“评估与精炼”。必须从AI涌现出的成千上万个想法中去粗取精，并根据MAYa原则进行打磨。

什么是MAYa原则？ 它是 Most Advanced Yet Accessible 的缩写，意为“既要最先进（Advanced），又要处于人们能接受（Accessible）的水平” 人类-AI协同创意：探索不同创意协作层级间的协同效应。如果AI创造了太离奇的东西，人类必须将其拉回到“大众可理解的水平”；如果AI创造了太俗套的东西，人类则需要给予“新的刺激”来提升其价值。

但也有需要注意的地方。如果过于依赖AI的建议，我们可能会面临停止自身创意思考的风险生成式AI中的创造力悖论：高性能、类人偏见及有限的差异化评估。AI只是向我们展示未曾涉足之路的亲切地图，最终走完那段路并在目的地插上旗帜的主角，依然是我们自己。

MindTickleBytes AI记者的观点

AI走上150万名专家的审判台这一事实本身，就证明了创造力不再是一个神秘的领域。未来的竞争力将不再在于“谁画得更好”，而在于“谁能更精细地操控AI，贯彻自己的品味”。你专属的那“一小撮盐”是什么？在AI时代，你坚定的品味将成为你最强大的天赋。

参考资料

Contra Labs - 人类创意基准
[人类创意基准——评估创意工作中的生成式AI Hacker News](https://news.ycombinator.com/item?id=47966484)
[2604.19799] 衡量生成式AI时代的创造力：在招聘和人才系统中区分人类与AI生成的创意表现

[Frontiers

探索人类-AI协同创作中的创造力：跨设计经验的对比研究](https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2025.1672735/full)

生成式AI中的创造力悖论：高性能、类人偏见及有限的差异化评估 - PMC
人类-AI协同创意：探索不同创意协作层级间的协同效应
新创意基准显示，目前尚无AI模型能同时兼顾准确性与可操控性
人类创意基准 - LinkedIn
Contra Labs - 人类创意基准
人类创意基准 - 评估创意工作中的生成式AI
人类创意基准 [AI Agent 知识库]
[研究人员针对10万名人类测试了AI的创造力 ScienceDaily](https://www.sciencedaily.com/releases/2026/01/260125083356.htm)

[Frontiers

生成式AI中的创造力悖论：高性能、类人偏见及有限的差异化评估](https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2025.1628486/full)

[生成式AI时代的创造力：创意伙伴关系的新纪元 ScienceDaily](https://www.sciencedaily.com/releases/2023/11/231120170939.htm)

Share this article:

测试你的理解

Q1. 在此次基准测试中，评估AI模型性能时划分的两个核心类别是什么？

速度与准确度
收敛 (Convergence) 与发散 (Divergence)
文本与图像

研究团队将AI评估分为：遵循最佳实践的能力——'收敛'，以及遵循个体创作者品味和意图的能力——'发散'。

Q2. 研究结果显示，目前AI模型共同面临的最大局限是什么？

生成速度太慢
无法正确识别颜色
缺乏既准确又易于操控的模型

根据报告，目前尚不存在输出结果在技术上准确 (Correct) 且能根据用户意图进行精细操控 (Steerable) 的模型。

Q3. 在AI与人类的协作中，用户修改AI输出结果时所应用的原则是什么？

最小努力原则
MAYa原则
随机选择原则

用户应用MAYa原则来精炼结果，即AI的产出既要先进 (Advanced) 且同时处于可接受 (Accessible) 的水平。