연구진은 인공지능과 10만 명의 인간을 대상으로 창의력 테스트를 진행했습니다.
![]() |
| 새로운 연구에 따르면 인공지능이 특정 창의력 테스트에서 일반인을 능가할 수 있다는 사실이 밝혀졌습니다. 이는 생성형 모델에 있어 매우 중요한 전환점입니다. (사진 제공: Shutterstock) |
ChatGPT와 같은 생성형 인공지능 시스템이 진정으로 독창적인 아이디어를 창출할 수 있을까요? 몬트리올 대학교 심리학과 카림 저비 교수가 주도하고 저명한 AI 연구자 요슈아 벤지오가 참여한 새로운 연구는 전례 없는 규모로 이 질문에 대한 해답을 제시합니다. 이번 연구는 인간의 창의성과 대규모 언어 모델의 창의성을 직접 비교한 가장 큰 규모의 연구입니다.
과학 학술지 '사이언티픽 리포트(네이처 포트폴리오)'에 발표된 이 연구는 중요한 변화를 시사합니다. 생성형 AI 시스템이 특정 창의성 측정 항목에서 평균적인 인간을 능가하는 수준에 도달했다는 것입니다. 하지만 동시에 가장 창의적인 사람들은 가장 강력한 AI 모델보다도 여전히 분명하고 일관된 우위를 보이고 있습니다.
인공지능이 인간의 평균 창의력 수준에 도달했다
연구진은 ChatGPT, Claude, Gemini 등 여러 주요 대규모 언어 모델을 평가하고 10만 명이 넘는 인간 참가자의 결과와 비교했습니다. 연구 결과는 분명한 전환점을 보여줍니다. GPT-4를 포함한 일부 AI 시스템은 발산적 언어 창의성을 측정하도록 설계된 과제에서 인간의 평균 점수를 능가했습니다.
"저희 연구에 따르면 대규모 언어 모델 기반의 일부 AI 시스템이 명확하게 정의된 작업에서 평균적인 인간의 창의성을 능가할 수 있다는 사실이 밝혀졌습니다."라고 카림 제르비 교수는 설명합니다. "이 결과는 놀랍고 심지어 당혹스러울 수도 있지만, 저희 연구는 그에 못지않게 중요한 사실을 강조합니다. 바로 최고의 AI 시스템조차도 가장 창의적인 인간의 수준에는 아직 미치지 못한다는 것입니다."
이 연구의 공동 제1저자인 앙투안 벨레마르-페팽(몬트리올 대학교 박사후 연구원)과 프랑수아 레스피나스(콩코르디아 대학교 박사 과정생)의 추가 분석 결과, 놀라운 패턴이 드러났습니다. 일부 AI 모델이 이제 일반인보다 뛰어난 성능을 보이지만, 최고의 창의력은 여전히 인간의 몫이라는 것입니다.
실제로 연구진이 참가자 중 가장 창의적인 절반을 대상으로 조사한 결과, 그들의 평균 점수는 테스트된 모든 AI 모델의 점수를 능가했습니다. 가장 창의적인 상위 10% 그룹에서는 그 격차가 더욱 커졌습니다.
"저희는 토론토 대학교의 제이 올슨 교수와 협력하여 10만 명이 넘는 참가자의 데이터를 기반으로 동일한 도구를 사용하여 인간과 AI의 창의성을 비교할 수 있는 엄격한 프레임워크를 개발했습니다."라고 밀라 연구소의 부교수이기도 한 카림 저비 교수는 말합니다.
과학자들은 인간과 인공지능의 창의성을 어떻게 측정할까요?
연구팀은 인간과 기계의 창의성을 공정하게 평가하기 위해 다양한 방법을 사용했습니다. 주요 도구는 널리 사용되는 심리 검사인 발산 연상 과제(DAT)였습니다. DAT는 단일 자극에서 다양하고 독창적인 아이디어를 생성하는 능력, 즉 발산적 창의성을 측정합니다.
연구 공동 저자인 제이 올슨이 개발한 DAT는 참가자(인간 또는 AI)에게 의미가 최대한 관련 없는 단어 10개를 나열하도록 요청합니다. 매우 창의적인 답변의 예로는 "은하, 포크, 자유, 조류, 하모니카, 양자, 향수, 벨벳, 허리케인, 광합성" 등이 있습니다.
이 과제 수행 능력은 글쓰기, 아이디어 생성, 창의적 문제 해결 등에서 사용되는 기존의 창의성 검사 결과와 밀접한 관련이 있습니다. 이 과제는 언어 기반이지만, 단순히 어휘력만을 평가하는 것이 아닙니다. 다양한 영역에 걸쳐 창의적 사고에 관여하는 광범위한 인지 과정을 활용합니다. 또한, DAT는 완료하는 데 2~4분밖에 걸리지 않고 누구나 온라인으로 이용할 수 있다는 실용적인 장점이 있습니다.
단어 목록부터 진정한 창의적 글쓰기까지
연구진은 이처럼 간단한 단어 연상 과제에서 보여준 AI의 성공이 더욱 복잡하고 현실적인 창의적 활동으로까지 확장될 수 있는지 탐구했습니다. 이를 검증하기 위해 AI 시스템과 인간 참가자를 대상으로 하이쿠(세 줄짜리 짧은 시) 작사, 영화 줄거리 요약, 단편 소설 쓰기와 같은 창의적 글쓰기 과제를 수행하도록 했습니다.
결과는 익숙한 패턴을 따랐습니다. AI 시스템이 때때로 평균적인 인간의 성능을 뛰어넘기도 했지만, 가장 숙련된 인간 창작자들은 일관되게 더 뛰어나고 독창적인 작품을 만들어냈습니다.
인공지능의 창의성은 조정될 수 있을까요?
이러한 연구 결과는 또 다른 중요한 질문을 제기합니다. 인공지능의 창의성은 고정된 것일까요, 아니면 조절 가능한 것일까요? 연구에 따르면 인공지능의 창의성은 기술적 설정, 특히 모델의 온도 변화를 통해 조절할 수 있습니다. 이 매개변수는 생성된 응답이 얼마나 예측 가능한지 또는 얼마나 모험적인지를 제어합니다.
온도가 낮을수록 AI는 더 안전하고 관습적인 결과를 생성합니다. 온도가 높을수록 반응은 더욱 다양해지고 예측 불가능해지며 탐구적인 성격을 띠게 되어 시스템이 익숙한 개념을 넘어설 수 있게 됩니다.
연구진은 또한 창의성이 지시문 작성 방식에 크게 영향을 받는다는 사실을 발견했습니다. 예를 들어, 어원학을 활용하여 단어의 기원과 구조에 대해 생각하도록 유도하는 지시문은 예상치 못한 연상 작용과 더 높은 창의성 점수로 이어졌습니다. 이러한 결과는 AI의 창의성이 인간의 지도에 크게 의존하며, 상호 작용과 지시가 창의적 과정의 핵심 요소임을 강조합니다.
인공지능이 인간 창작자를 대체할까요?
이 연구는 인공지능이 창의적인 전문가들을 대체할 수 있다는 우려에 대해 균형 잡힌 시각을 제시합니다. 인공지능 시스템이 특정 작업에서 인간의 평균적인 창의성과 같거나 그 이상을 발휘할 수 있게 되었지만, 여전히 분명한 한계가 있으며 인간의 지시에 의존합니다.
"인공지능이 특정 테스트에서 인간 수준의 창의성에 도달할 수 있게 되었지만, 우리는 이러한 잘못된 경쟁 의식에서 벗어나야 합니다."라고 카림 제르비 교수는 말합니다. "생성형 인공지능은 무엇보다도 인간의 창의성을 지원하는 매우 강력한 도구가 되었습니다. 창작자를 대체하는 것이 아니라, 이를 사용하기로 선택한 사람들에게 있어 상상하고 탐구하고 창조하는 방식을 근본적으로 변화시킬 것입니다."
이번 연구 결과는 창의적인 직업의 종말을 예고하는 것이 아니라, 인공지능이 창의적인 조력자 역할을 하는 미래를 시사합니다. 인공지능은 아이디어를 확장하고 새로운 탐구의 길을 열어줌으로써 인간의 상상력을 대체하기보다는 증폭시키는 데 도움을 줄 수 있습니다.
"인간과 기계의 능력을 직접적으로 비교하는 우리 연구와 같은 연구들은 창의성이라는 개념의 의미를 재고하도록 우리를 이끌어줍니다."라고 카림 제르비 교수는 결론지었습니다.
본 연구에 대하여
"인간과 대규모 언어 모델의 발산적 창의성"이라는 제목의 논문이 2026년 1월 21일 Scientific Reports 에 게재되었습니다 . 이 연구에는 몬트리올 대학교, 콩코르디아 대학교, 토론토 대학교 미시소거 캠퍼스, 밀라(퀘벡 AI 연구소), 그리고 구글 딥마인드의 과학자들이 참여했습니다.
이번 연구는 카림 저비 교수가 주도했으며, 앙투안 벨레마르-페팽(몬트리올 대학교)과 프랑수아 레스피나스(콩코르디아 대학교)가 공동 제1저자로 참여했습니다. 연구팀에는 밀라(Mila)와 로이제로(LoiZéro)의 창립자이자 딥러닝 분야의 선구자인 요슈아 벤지오도 포함되었습니다. 딥러닝은 ChatGPT와 같은 현대 AI 시스템의 기반이 되는 기술입니다.
출처: https://www.sciencedaily.com/releases/2026/01/260125083356.htm


댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요