과학자들은 전문가의 깊이 있는 지식을 바탕으로 심도 있는 시험을 만들었는데, 현재의 AI 시스템들은 이 시험에서 계속해서 실패합니다.
연구진이 최첨단 AI 모델조차 2.7%라는 낮은 점수를 받을 정도로 어려운 시험을 설계했습니다.
이는 인간 고유의 지능이 여전히 강력하다는 것을 보여줍니다.
인공지능이 표준 학업 시험을 빠르게 정복해 나가는 가운데, 전 세계 1,000여 명의 전문가로 구성된 컨소시엄이 "인류의 마지막 시험(Humanity's Last Exam, HLE)"을 개발했습니다. 이 새로운 벤치마크 시험은 고대 언어, 고급 수학, 자연 과학 등 다양한 분야에 걸쳐 고도로 전문화된 2,500개의 문제로 구성되어 있으며, 현재의 AI로는 풀 수 없도록 특별히 설계되었습니다. 기계가 이미 높은 점수를 받기 시작한 기존 평가와 달리, HLE는 단순한 패턴 인식이나 인터넷 데이터 검색을 훨씬 뛰어넘는 심층적인 맥락 이해와 전문가 수준의 추론을 요구합니다. 텍사스 A&M 대학교와 같은 기관의 참여자들은 각 문제에 단 하나의 검증 가능한 정답이 있도록 설계하여, 단순한 추측이 아닌 진정한 숙달이 요구되도록 했습니다.
초기 결과는 기계 처리 능력과 인간 전문성 사이에 상당한 격차가 있음을 보여줍니다. 전문가들은 이러한 복잡한 주제를 다룰 수 있지만, GPT-40이나 Claude와 같은 최상위 모델조차 초기 점수는 한 자릿수에 그쳤습니다. 이 프로젝트의 주요 기여자인 퉁 응우옌 박사는 기술의 한계를 뛰어넘는 것이 아니라 안전성과 발전을 위한 엄격한 기준을 제시하는 것이 목표라고 설명합니다. 인공지능이 어려움을 겪는 지점을 정확히 파악함으로써 연구자들은 더욱 신뢰할 수 있는 시스템을 구축할 수 있으며, 동시에 인간의 전문적인 지식이 여전히 비할 데 없는 영역임을 확인할 수 있습니다. 이 투명하고 장기적인 기준은 급속한 기술 발전에도 불구하고 인공지능의 성능과 인간의 이해 사이의 격차가 여전히 크다는 사실을 일깨워줍니다.
출처: Henton, L. (2026). ‘인류의 마지막 시험’이 시작되었습니다. 텍사스 A&M 대학교 마케팅 및 커뮤니케이션 부서.
출처: https://www.facebook.com/permalink.php?story_fbid=pfbid02kcvTaXF1165duj1SXWt67e9zaxjB8R87rAv3XsRZ6MRSSat1ipMiaWKMTBfCzrp7l&id=100083180983536


댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요