AI가 예술가의 '감성'까지 따라잡았을까? 전문가 150만 명이 검증한 '창의성 성적표'

AI Summary

최신 연구에 따르면 AI는 특정 창의성 테스트에서 평균적인 인간을 능가하지만, 창작자의 의도를 완벽하게 따르면서 동시에 기술적으로 정확한 '완벽한 AI 모델'은 아직 존재하지 않는 것으로 나타났습니다.

상상해보세요. 당신은 지금 막 개업할 베이커리의 로고를 만들고 있습니다. 인공지능(AI)에게 “따뜻하고 포근한 느낌의 식빵 모양 로고를 그려줘”라고 부탁했죠. AI는 순식간에 수십 개의 시안을 내놓습니다. 그런데 자세히 보니 어떤 로고는 식빵 모양이 찌그러져 있고, 어떤 로고는 식빵은 완벽한데 색감이 너무 차갑습니다. 당신이 다시 “색감을 좀 더 노란색 계열로 바꿔줘”라고 명령하자, 이번에는 색깔은 좋아졌는데 식빵이 난데없이 크루아상으로 변해버립니다.

우리는 흔히 창의성을 인간만이 가진 고유한 ‘성역’이라고 믿어왔습니다. 하지만 최근 AI가 쓴 시가 문학상을 받고, AI가 그린 그림이 경매에서 고가에 팔리는 시대를 살고 있죠. 그렇다면 본질적인 의문이 생깁니다. “AI는 정말로 창의적인 걸까요? 아니면 단순히 인간의 데이터를 아주 정교하게 흉내 내는 기계일 뿐일까요?”

이 질문에 답하기 위해, 무려 150만 명의 창작 전문가들이 발 벗고 나섰습니다. 콘트라 랩스(Contra Labs)가 발표한 ‘인간 창의성 벤치마크(Human Creativity Benchmark)’는 AI의 창의적 성능을 과학적이고 체계적으로 측정한 최초의 대규모 성적표입니다.

이게 왜 중요한가요?

과거에는 AI가 단순히 “말을 알아듣느냐”가 중요했다면, 이제는 “얼마나 세련되게(Style), 어떤 분위기로(Tone), 어떤 취향(Taste)에 맞춰 결과물을 만드느냐”가 핵심입니다 Contra Labs - Human Creativity Benchmark. 비유하자면, 이제 막 말을 뗀 아이가 아니라 ‘전문 어시스턴트’로서의 자질을 평가받는 단계에 이른 것입니다.

우리 같은 일반인들에게 이 연구가 중요한 이유는 크게 세 가지입니다.

AI를 제대로 부리는 법을 알게 됩니다: 어떤 AI가 내 의도를 잘 알아듣고, 어떤 AI가 기술적으로 뛰어난지 파악하면 업무 효율을 획기적으로 올릴 수 있습니다.
‘진짜 창의성’의 정의가 바뀝니다: 단순히 세상에 없던 새로운 것을 만드는 게 아니라, 복잡한 제약 조건 속에서 기존 아이디어를 얼마나 기막히게 조합하느냐가 창의성으로 재정의되고 있습니다 arxiv.org/abs/2604.19799.
인간의 역할이 더 분명해집니다: AI가 아무리 훌륭한 결과물을 내놓아도, 결국 마지막에 “이게 내 스타일이야!”라고 결정하는 ‘최종 승인권자’는 인간입니다. 이번 연구는 그 경계선이 어디인지 명확히 보여줍니다.

‘창의성’도 숫자로 잴 수 있을까?

창의성은 지극히 주관적입니다. 누구에게는 아름다운 명화가 누군가에게는 낙서처럼 보일 수 있죠. 이를 해결하기 위해 콘트라 랩스는 창의성을 측정하는 두 가지 핵심 잣대를 만들었습니다. 바로 ‘수렴(Convergence)’과 ‘발산(Divergence)’입니다 No AI Model Is Both Correct and Steerable, Says New Creative Benchmark.

수렴(Convergence): “이건 디자인의 정석을 지켰어”라고 모두가 동의하는 모범 사례를 따르는 능력입니다. 쉽게 말해서 요리사가 레시피대로 정확히 간을 맞추는 것과 같습니다.
발산(Divergence): “이건 딱 내 스타일이야!”라고 말할 수 있는, 창작자의 독특한 의도나 개성을 반영하는 능력입니다. 손님의 까다로운 입맛에 맞춰 소금 양을 아주 미세하게 조절하는 감각과도 같죠.

연구진은 그래픽 디자인, 글쓰기 등 5개 창작 분야에서 1만 5천 개 이상의 전문가 판단 데이터를 수집했습니다 Human Creativity Benchmark - LinkedIn. 150만 명 이상의 검증된 전문가들이 AI가 만든 결과물을 꼼꼼히 리뷰하고 점수를 매긴 것입니다 Contra Labs - The Human Creativity Benchmark.

AI 요리사와 ‘입맛’의 전쟁: 쉽게 이해하기

이해를 돕기 위해 비유를 더 들어볼까요? 현재의 AI는 아주 공부를 많이 한 ‘천재 수습 요리사’와 비슷합니다.

첫 번째 비유: 레시피 vs 소금 한 꼬집 AI는 세상의 모든 요리책(데이터)을 통째로 외웠습니다. 그래서 “파스타 만들어줘”라고 하면 아주 정석적이고 보기 좋은 파스타를 내놓습니다(수렴). 하지만 당신이 “오늘은 좀 덜 짜게, 하지만 어제 먹은 떡볶이의 매콤한 느낌이 나게 해줘”라고 아주 미묘한 요구를 하면 당황하기 시작합니다(발산). 어제 먹은 떡볶이의 추억을 파스타 한 접시에 담아내는 그 ‘한 꼬집’의 센스가 아직은 부족한 것이죠.

두 번째 비유: 레고 조각으로 만드는 창의성 과거에는 창의성을 ‘무에서 유를 창조하는 번뜩이는 영감’이라고 생각했습니다. 하지만 이번 연구는 창의성을 ‘아이디어의 변환과 합성(Synthesis)’으로 정의합니다 arxiv.org/abs/2604.19799. 마치 수조 개의 레고 조각이 흩어져 있는 임베딩 공간(Embedding Space, AI가 단어나 이미지를 숫자로 바꿔 이해하는 가상의 ‘생각의 방’)에서, 필요한 조각들을 찾아내어 세상에 없던 모양으로 조립하는 과정과 같습니다.

AI가 인간을 이겼다고? 놀라운 반전

충격적인 결과도 있습니다. 최신 AI 시스템들이 특정 창의성 테스트에서 평균적인 인간보다 더 높은 점수를 받았다는 사실입니다 [Researchers tested AI against 100,000 humans on creativity

ScienceDaily](https://www.sciencedaily.com/releases/2026/01/260125083356.htm).

무려 10만 명의 사람과 AI를 일대일로 비교한 연구에서, 생성형 AI는 아이디어의 다양성이나 참신함 면에서 평범한 사람들의 수준을 훌쩍 뛰어넘었습니다 [Creativity in the age of generative AI: A new era of creative partnerships

ScienceDaily](https://www.sciencedaily.com/releases/2023/11/231120170939.htm). 이는 AI가 단순히 데이터를 베끼는 수준을 넘어, 인간이 미처 생각하지 못한 ‘의외의 조합’을 제안할 수 있는 단계에 왔음을 뜻합니다.

하지만 여기에는 미묘한 함정이 있습니다. AI가 만든 결과물을 자세히 들여다보면, 어딘가 모르게 기계적인 느낌이 나는 ‘AI스러운 막(AI’ish veneer)’이 느껴진다는 지적입니다. 전문가들은 이 미세한 위화감을 ‘미끄덩거리는 느낌’ 혹은 ‘디지털 지문’이라고 표현하기도 하죠 [The Human Creativity Benchmark – Evaluating Generative AI in Creative Work

Hacker News](https://news.ycombinator.com/item?id=47966484).

아직은 ‘완벽한 AI’가 없는 이유

이번 벤치마크의 가장 중요한 결론은 이것입니다: “기술적으로 정확하면서 동시에 내 마음대로 조종하기 쉬운 모델은 아직 없다” No AI Model Is Both Correct and Steerable, Says New Creative Benchmark.

정확한 모델: 결과물은 훌륭하지만, 사용자가 “이 부분만 살짝 고쳐줘”라고 하면 전체 스타일을 망가뜨리거나 고집을 부립니다.
조종하기 쉬운 모델: 사용자의 말을 찰떡같이 알아듣고 세부 사항을 잘 바꾸지만, 전체적인 완성도가 떨어지거나 기본기가 부족합니다.

마치 그림 실력은 최고인데 고집불통인 예술가와, 내 말은 잘 듣는데 실력이 초보인 학생 중 한 명을 선택해야 하는 상황과 비슷합니다. 연구에 따르면 모든 카테고리에서 압도적으로 1등인 모델은 현재 존재하지 않습니다 Human Creativity Benchmark - LinkedIn.

앞으로의 창작은 어떻게 변할까?

이제 창작은 인간 혼자 고뇌하는 작업이 아니라 ‘인간-AI 공동 창작 과정(HAI-CDP)’으로 진화하고 있습니다 Exploring creativity in human–AI co-creation: a comparative study across design experience.

이 과정에서 인간에게 가장 필요한 능력은 ‘평가와 정제’입니다. AI가 쏟아낸 수만 가지 아이디어 중에서 옥석을 가려내고, 이를 MAYa 원칙에 따라 다듬어야 합니다.

MAYa 원칙이란? Most Advanced Yet Accessible의 약자로, “가장 진보적이면서도(Advanced) 사람들이 받아들일 수 있는(Accessible) 수준이어야 한다”는 뜻입니다 Human-AI Co-Creativity: Exploring Synergies Across Levels of Creative Collaboration. AI가 너무 괴상한 것을 만들면 인간이 이를 ‘대중이 이해 가능한 수준’으로 끌어내려야 하고, AI가 너무 뻔한 것을 만들면 인간이 ‘새로운 자극’을 주어 가치를 높여야 한다는 것이죠.

하지만 주의할 점도 있습니다. AI의 제안에 너무 의존하다 보면 우리 스스로 창의적인 고민을 멈추게 될 위험이 있습니다 The paradox of creativity in generative AI: high performance, human-like bias, and limited differential evaluation. AI는 우리가 가보지 못한 길을 보여주는 친절한 지도일 뿐, 결국 그 길을 걸어가 목적지에 깃발을 꽂는 주인공은 바로 우리입니다.

MindTickleBytes의 AI 기자 시선

AI가 전문가 150만 명의 심판대에 올랐다는 사실 자체가 이제 창의성이 더 이상 신비로운 영역이 아님을 증명합니다. 앞으로의 경쟁력은 ‘누가 더 그림을 잘 그리느냐’가 아니라 ‘누가 AI를 더 정교하게 조종해서 자신의 취향을 관철시키느냐’에 달려 있습니다. 당신만의 ‘소금 한 꼬집’은 무엇인가요? AI 시대, 당신의 확고한 취향이 곧 당신의 가장 강력한 재능이 될 것입니다.

참고자료

Contra Labs - Human Creativity Benchmark
[The Human Creativity Benchmark – Evaluating Generative AI in Creative Work Hacker News](https://news.ycombinator.com/item?id=47966484)
[2604.19799] Measuring Creativity in the Age of Generative AI: Distinguishing Human and AI-Generated Creative Performance in Hiring and Talent Systems

[Frontiers

Exploring creativity in human–AI co-creation: a comparative study across design experience](https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2025.1672735/full)

The paradox of creativity in generative AI: high performance, human-like bias, and limited differential evaluation - PMC
Human-AI Co-Creativity: Exploring Synergies Across Levels of Creative Collaboration
No AI Model Is Both Correct and Steerable, Says New Creative Benchmark
Human Creativity Benchmark - LinkedIn
Contra Labs - The Human Creativity Benchmark
The Human Creativity Benchmark - Evaluating Generative AI in Creative Work
Human Creativity Benchmark [AI Agent Knowledge Base]
[Researchers tested AI against 100,000 humans on creativity ScienceDaily](https://www.sciencedaily.com/releases/2026/01/260125083356.htm)

[Frontiers

The paradox of creativity in generative AI: high performance, human-like bias, and limited differential evaluation](https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2025.1628486/full)

[Creativity in the age of generative AI: A new era of creative partnerships

ScienceDaily](https://www.sciencedaily.com/releases/2023/11/231120170939.htm)

Share this article:

이 글을 얼마나 이해했나요?

Q1. 이번 벤치마크에서 AI 모델의 성능을 평가할 때 나눈 두 가지 핵심 카테고리는 무엇인가요?

속도와 정확도
수렴(Convergence)과 발산(Divergence)
텍스트와 이미지

연구진은 모범 사례를 따르는 능력인 '수렴'과 개별 창작자의 취향과 의도를 따르는 능력인 '발산'으로 나누어 AI를 평가했습니다.

Q2. 연구 결과, 현재 AI 모델들이 공통으로 겪고 있는 가장 큰 한계는 무엇인가요?

생성 속도가 너무 느리다
색상을 제대로 인식하지 못한다
정확하면서 동시에 조종하기 쉬운 모델이 없다

보고서에 따르면 출력 결과가 기술적으로 정확하면서도(Correct) 사용자의 의도대로 정교하게 조종되는(Steerable) 모델은 아직 존재하지 않습니다.

Q3. AI와 인간의 협업에서 사용자가 AI의 결과물을 수정하며 적용하는 원칙은 무엇인가요?

최소 노력의 원칙
MAYa 원칙
무작위 선택의 원칙

사용자는 AI의 결과물이 새로우면서도(Advanced) 동시에 받아들일 수 있는(Accessible) 수준이어야 한다는 MAYa 원칙을 적용하여 결과물을 정제합니다.