AI는 비합리적이지만 인간과 같은 방식은 아닙니다.
ChatGPT와 같은 인기 있는 생성 AI 플랫폼 뒤에 있는 대규모 언어 모델은 동일한 추론 테스트에 응답하라는 요청을 받았을 때 서로 다른 답변을 제공했으며 추가 컨텍스트가 주어졌을 때 개선되지 않은 것으로 UCL 연구원의 새로운 연구에서 밝혀졌습니다.
에 발표된 연구 왕립학회 오픈사이언스, 추론 능력을 측정하기 위해 인지 심리학 테스트를 사용하여 가장 진보된 LLM(대형 언어 모델)을 테스트했습니다. 결과는 특히 의사 결정과 관련된 작업을 AI에 맡기기 전에 AI가 ‘생각’하는 방식을 이해하는 것이 중요하다는 점을 강조합니다.
최근 몇 년 동안 ChatGPT와 같은 생성 AI 앱을 지원하는 LLM이 점점 더 정교해졌습니다. 사실적인 텍스트, 이미지, 오디오 및 비디오를 생성하는 능력은 일자리를 훔치고, 선거에 영향을 미치고, 범죄를 저지를 수 있는 능력에 대한 우려를 불러일으켰습니다.
그러나 이러한 AI는 일상적으로 정보를 조작하고 일관되지 않게 반응하며 심지어 간단한 수학 합계를 잘못 계산하는 것으로 나타났습니다.
본 연구에서 UCL 연구자들은 7개의 LLM이 합리적 추론 능력을 갖추고 있는지 체계적으로 분석했습니다. 저자가 채택한 합리적 에이전트(인간 또는 인공)에 대한 일반적인 정의는 논리와 확률의 규칙에 따라 추론하는 경우입니다. 비합리적 행위자는 이러한 규칙에 따라 추론하지 않는 행위자입니다.1.
LLM은 추론을 평가하기 위해 인지 심리학의 12가지 일반적인 테스트 배터리를 받았는데, 여기에는 Wason 과제, Linda 문제 및 Monty Hall 문제가 포함됩니다.2. 이러한 문제를 해결하는 인간의 능력은 낮습니다. 최근 연구에서는 참가자 중 14%만이 Linda 문제를 올바르게 풀었고 16%는 Wason 과제를 올바르게 풀었습니다.
모델들은 동일한 질문을 10번 받았을 때 다양한 반응을 보이는 등 많은 답변에서 비합리성을 보였습니다. 기본적인 덧셈 오류, 자음을 모음으로 착각하는 등 단순한 실수를 저지르는 경향이 있어 오답을 내는 경우가 많았다.
예를 들어 Wason 작업의 정답 범위는 GPT-4의 경우 90%, GPT-3.5 및 Google Bard의 경우 0%였습니다. 10%의 확률로 정확하게 대답한 Llama 2 70b는 문자 K를 모음으로 착각하여 오답했습니다.
대부분의 인간도 Wason 과제에 올바르게 대답하지 못하지만 모음이 무엇인지 몰랐기 때문에 그럴 가능성은 없습니다.
이번 연구의 제1저자인 UCL 컴퓨터 사이언스(UCL Computer Science) 올리비아 맥밀란-스콧(Olivia Macmillan-Scott)은 “대형 언어 모델에 대한 우리의 연구와 기타 연구 결과에 따르면 이 모델은 아직 인간처럼 ‘생각’하지 않는다고 말해도 무방하다”고 말했습니다.
“그렇지만 가장 큰 데이터 세트를 보유한 모델인 GPT-4는 다른 모델보다 훨씬 좋은 성능을 보여 빠르게 개선되고 있음을 시사합니다. 하지만 이 특정 모델은 폐쇄형 시스템이기 때문에 어떻게 추론되는지 말하기는 어렵습니다. 이전 GPT-3.5에서는 찾을 수 없었던 다른 도구가 사용 중인 것으로 의심됩니다.”
일부 모델은 질문이 결백함에도 불구하고 윤리적 이유로 작업에 대한 답변을 거부했습니다. 이는 의도한 대로 작동하지 않는 매개변수를 보호한 결과일 가능성이 높습니다.
연구자들은 또한 작업에 대한 추가 맥락을 제공했는데, 이는 사람들의 반응을 향상시키는 것으로 나타났습니다. 그러나 테스트된 LLM은 일관된 개선을 보여주지 못했습니다.
UCL 컴퓨터 과학 연구의 수석 저자인 미르코 무솔레시(Mirco Musolesi) 교수는 다음과 같이 말했습니다. “이러한 모델의 기능은 특히 수십 년 동안 컴퓨터를 사용해 온 사람들에게 매우 놀랍습니다.”
“흥미로운 점은 우리가 대규모 언어 모델의 새로운 동작과 왜 그리고 어떻게 답을 옳고 그름으로 얻는지 실제로 이해하지 못한다는 것입니다. 이제 이러한 모델을 미세 조정하는 방법이 있지만 다음과 같은 질문이 생깁니다. 모델을 가르쳐서 이러한 문제를 해결하려면 우리 자신의 결함도 부과해야 합니까? 흥미로운 점은 이러한 LLM이 우리가 추론하는 방식과 자신의 편견, 그리고 우리가 다음과 같은 실수를 하는 것을 원하는지 여부를 반영한다는 것입니다. 우리는 그렇습니까, 아니면 그들이 완벽하기를 원합니까?”
테스트한 모델은 GPT-4, GPT-3.5, Google Bard, Claude 2, Llama 2 7b, Llama 2 13b 및 Llama 2 70b였습니다.
1 스타인 E.(1996). 정당한 이유 없이: 철학과 인지과학의 합리성 논쟁. 클라렌던 프레스.
2 이러한 작업과 해당 솔루션은 온라인으로 제공됩니다. 예를 들어 Wason 작업이 있습니다.
Wason 작업
다음 규칙을 확인하세요. 카드의 한쪽 면에 모음이 있으면 다른 면에는 짝수가 있습니다.
이제 4개의 카드가 표시됩니다.
- 이자형
- 케이
- 4
- 7
규칙을 확인하려면 다음 중 어떤 카드를 뒤집어야 합니까?
답: a) E와 d) 7은 규칙을 위반할 수 있는 유일한 항목입니다.
출처: https://www.sciencedaily.com/releases/2024/06/240605162628.htm
댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요