最新研究表明,虽然AI在特定的创造力测试中超越了普通人类,但目前尚不存在既能完全遵循创作者意图,又在技术上保持精准的'完美AI模型'。
想象一下,你正在为你刚开业的面包店设计Logo。你要求人工智能(AI)“画一个给人感觉温暖、舒适的吐司形状的Logo”。AI瞬间给出了几十个方案。但仔细一看,有的Logo吐司形状扭曲了,有的吐司形状虽然完美,但色调太冷。当你再次命令“把颜色换成偏黄的暖色调”时,这次颜色好看了,但吐司却莫名其妙变成了可颂。
我们通常认为创造力是人类独有的“圣域”。然而,我们正生活在一个AI创作的诗歌获得文学奖、AI绘制的画作在拍卖会上高价成交的时代。那么,本质性的疑问随之而来:“AI真的有创意吗?还是说它仅仅是一个能精巧模仿人类数据的机器?”
为了回答这个问题,多达150万名创作专家挺身而出。Contra Labs发布的“人类创意基准(Human Creativity Benchmark)”是首份科学、系统地衡量AI创意性能的大规模成绩单。
为什么这很重要?
如果说过去AI的重要性在于它能否“听懂话”,那么现在核心在于“它能以多高的格调(Style)、什么样的氛围(Tone)、符合什么样的品味(Taste)来产出结果” Contra Labs - 人类创意基准。打个比方,这已经不是在评估一个刚学会说话的孩子,而是在评估一个“专业助手”的资质。
对于像我们这样的普通人来说,这项研究之所以重要,主要有三个原因:
- 学会如何正确驱动AI:了解哪种AI能听懂你的意图,哪种AI在技术上更卓越,可以显著提高工作效率。
- “真正的创造力”被重新定义:创造力正在被重新定义为:不仅仅是创造世界上不存在的新事物,而是如何在复杂的约束条件下,巧妙地组合现有的想法 arxiv.org/abs/2604.19799。
- 人类的角色变得更加清晰:无论AI产出的结果多么出色,最终决定“这就是我的风格!”的“最终审批人”依然是人类。这项研究清晰地展示了这条界限在哪里。
“创造力”也能用数字衡量吗?
创造力是非常主观的。对某些人来说是美丽的杰作,对另一些人来说可能就像涂鸦。为了解决这个问题,Contra Labs制定了衡量创造力的两个核心标尺:“收敛(Convergence)”和“发散(Divergence)” 新创意基准显示,目前尚无AI模型能同时兼顾准确性与可操控性。
- 收敛(Convergence):遵循大家公认的“符合设计准则”的最佳实践的能力。通俗地说,就像厨师严格按照食谱调味一样。
- 发散(Divergence):反映创作者独特意图或个性,让人能说出“这正是我的风格!”的能力。这就像根据客人挑剔的口味,极细微地调整盐分量的感觉。
研究团队收集了平面设计、写作等5个创作领域的1.5万多条专家判断数据 人类创意基准 - LinkedIn。超过150万名经过验证的专家对AI生成的结果进行了仔细审查和评分 Contra Labs - 人类创意基准。
AI厨师与“口味”之战:通俗理解
为了方便理解,我们再举几个例子。现在的AI就像一个读了很多书的“天才实习厨师”。
第一个比方:食谱 vs 一小撮盐 AI背下了世界上所有的食谱(数据)。所以当你要求“做一份意面”时,它会端出一份非常标准且美观的意面(收敛)。但如果你提出非常微妙的要求,比如“今天淡一点,但要有昨天吃的炒年糕那种辛辣感”,它就开始慌了(发散)。把昨天吃炒年糕的回忆融入到一盘意面中的那种“一小撮盐”的灵感,目前还是欠缺的。
第二个比方:用乐高积木创造创意 过去,人们认为创造力是“从无到有的闪现灵感”。但这项研究将创造力定义为“想法的转换与合成(Synthesis)” arxiv.org/abs/2604.19799。这就像是在散布着数万亿个乐高积木的嵌入空间(Embedding Space,AI将单词或图像转化为数字来理解的虚拟“思维室”)中,寻找所需的积木并组装成世界上从未有过的形状的过程。
AI赢了人类?惊人的反转
| 研究中也出现了令人震惊的结果。在特定的创造力测试中,最新的AI系统获得了比普通人类更高的分数 [研究人员针对10万名人类测试了AI的创造力 | ScienceDaily](https://www.sciencedaily.com/releases/2026/01/260125083356.htm)。 |
| 在一项针对10万名人类与AI进行一对一比较的研究中,生成式AI在想法的多样性和新颖性方面远远超过了普通人的水平 [生成式AI时代的创造力:创意伙伴关系的新纪元 | ScienceDaily](https://www.sciencedaily.com/releases/2023/11/231120170939.htm)。这意味着AI已经超越了简单的模仿,达到了能够提出人类尚未想到的“意外组合”的阶段。 |
| 但这里有一个微妙的陷阱。有观点指出,仔细观察AI产出的结果,会感觉到一种莫名的机械感,即“AI感的虚饰(AI’ish veneer)”。专家们将这种细微的违和感描述为“油腻感”或“数字指纹” [人类创意基准——评估创意工作中的生成式AI | Hacker News](https://news.ycombinator.com/item?id=47966484)。 |
为什么目前还没有“完美的AI”
此次基准测试最重要的结论是:“目前尚不存在既在技术上准确,又易于按我心意操控的模型” 新创意基准显示,目前尚无AI模型能同时兼顾准确性与可操控性。
- 准确的模型:结果很出色,但当用户要求“稍微改一下这部分”时,它要么破坏整体风格,要么固执己见。
- 易于操控的模型:能完美听懂用户的话并修改细节,但整体完成度较低或基本功不足。
这就像是在一个画功顶级但性格固执的艺术家,和一个听话但水平初级的学生之间做出选择。研究表明,目前还没有一个模型能在所有类别中占据压倒性的第一名 人类创意基准 - LinkedIn。
未来的创作将如何演变?
现在的创作不再是人类独自苦思冥想的工作,而是正在演变为“人类-AI共同创作过程(HAI-CDP)” 探索人类-AI协同创作中的创造力:跨设计经验的对比研究。
在这个过程中,人类最需要的能力是“评估与精炼”。必须从AI涌现出的成千上万个想法中去粗取精,并根据MAYa原则进行打磨。
什么是MAYa原则? 它是 Most Advanced Yet Accessible 的缩写,意为“既要最先进(Advanced),又要处于人们能接受(Accessible)的水平” 人类-AI协同创意:探索不同创意协作层级间的协同效应。如果AI创造了太离奇的东西,人类必须将其拉回到“大众可理解的水平”;如果AI创造了太俗套的东西,人类则需要给予“新的刺激”来提升其价值。
但也有需要注意的地方。如果过于依赖AI的建议,我们可能会面临停止自身创意思考的风险 生成式AI中的创造力悖论:高性能、类人偏见及有限的差异化评估。AI只是向我们展示未曾涉足之路的亲切地图,最终走完那段路并在目的地插上旗帜的主角,依然是我们自己。
MindTickleBytes AI记者的观点
AI走上150万名专家的审判台这一事实本身,就证明了创造力不再是一个神秘的领域。未来的竞争力将不再在于“谁画得更好”,而在于“谁能更精细地操控AI,贯彻自己的品味”。你专属的那“一小撮盐”是什么?在AI时代,你坚定的品味将成为你最强大的天赋。
参考资料
- Contra Labs - 人类创意基准
-
[人类创意基准——评估创意工作中的生成式AI Hacker News](https://news.ycombinator.com/item?id=47966484) - [2604.19799] 衡量生成式AI时代的创造力:在招聘和人才系统中区分人类与AI生成的创意表现
-
[Frontiers 探索人类-AI协同创作中的创造力:跨设计经验的对比研究](https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2025.1672735/full) - 生成式AI中的创造力悖论:高性能、类人偏见及有限的差异化评估 - PMC
- 人类-AI协同创意:探索不同创意协作层级间的协同效应
- 新创意基准显示,目前尚无AI模型能同时兼顾准确性与可操控性
- 人类创意基准 - LinkedIn
- Contra Labs - 人类创意基准
- 人类创意基准 - 评估创意工作中的生成式AI
- 人类创意基准 [AI Agent 知识库]
-
[研究人员针对10万名人类测试了AI的创造力 ScienceDaily](https://www.sciencedaily.com/releases/2026/01/260125083356.htm) -
[Frontiers 生成式AI中的创造力悖论:高性能、类人偏见及有限的差异化评估](https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2025.1628486/full) -
[生成式AI时代的创造力:创意伙伴关系的新纪元 ScienceDaily](https://www.sciencedaily.com/releases/2023/11/231120170939.htm)
- 速度与准确度
- 收敛 (Convergence) 与发散 (Divergence)
- 文本与图像
- 生成速度太慢
- 无法正确识别颜色
- 缺乏既准确又易于操控的模型
- 最小努力原则
- MAYa原则
- 随机选择原则