고급 AI가 시각적 퍼즐을 풀고 추상적 추론을 수행할 수 있을까?

인공 지능은 언어를 마스터하고, 예술을 창출하고, 심지어 체스의 거장을 이기는 법을 배웠습니다. 하지만 추상적 추론의 코드를 해독할 수 있을까요? 인간이 머리를 긁게 만드는 까다로운 시각적 퍼즐 말입니다. USC Viterbi School of Engineering Information Sciences Institute(ISI)의 연구원들은 AI의 인지 능력을 시험에 부쳐, 한때 인간의 IQ 테스트에만 국한되었던 시각적 문제를 해결하기 위해 다중 모달 대규모 언어 모델(MLLM)을 활용하고 있습니다. 그 결과는? AI가 얼마나 멀리 왔는지, 그리고 여전히 어디에서 비틀거리는지 엿볼 수 있습니다.

USC Viterbi ISI 연구 보조원인 키안 아라비안과 지바르 소라티는 최근 MLLM이 시각적 인식과 논리적 추론이 모두 필요한 작업인 비언어적 추상적 추론을 수행할 수 있는지 조사하고, 2024년 10월 7~9일 필라델피아에서 열린 언어 모델링 컨퍼런스(COLM 2024)에서 연구 결과를 발표했습니다.

USC Viterbi School of Engineering의 컴퓨터 과학 연구 조교수이자 이 논문의 저자인 Jay Pujara는 "우리는 매일 AI가 무엇을 할 수 있고(할 수 없는)지에 대한 새로운 헤드라인에 폭격을 당하고 있으며, 이는 종종 매우 놀랍습니다. 우리는 여전히 새로운 AI 모델이 무엇을 할 수 있는지에 대한 이해가 매우 제한적이며, 이러한 한계를 이해하기 전까지는 AI를 더 좋고, 더 안전하고, 더 유용하게 만들 수 없습니다. 이 논문은 AI가 어려움을 겪는 부분에 대한 이야기의 빠진 부분을 채우는 데 도움이 됩니다."라고 말했습니다.

과제: AI가 시각과 사고를 할 수 있을까?

"이미지를 처리할 수 있는 이 새로운 세대의 대형 모델이 스스로 추론할 수 있는지 알아보고 싶었습니다." Ahrabian이 설명했습니다. "예를 들어, 노란색 원이 파란색 삼각형으로 바뀌는 것을 본다면, 이 모델은 다른 시나리오에서 동일한 패턴을 적용할 수 있을까요?"

이 질문에 답하기 위해, 팀은 추상 추론에 대한 잘 알려진 테스트인 Raven's Progressive Matrices를 기반으로 한 퍼즐에서 24개의 다른 MLLM을 테스트했습니다. 그들은 오픈소스 모델이 상당히 어려움을 겪는다는 것을 발견했습니다. "정말 나빴어요. 아무것도 얻을 수 없었어요." Ahrabian이 솔직하게 말했습니다.

반면, GPT-4V와 같은 폐쇄형 소스 모델은 비공개 회사에서 개발하여 공개적으로 수정할 수 없는 모델로, 더 나은 성능을 보였습니다. 이러한 모델은 일반적으로 더 큰 데이터 세트와 더 강력한 컴퓨팅 시스템을 포함한 보다 고급 리소스로 학습되어 눈에 띄는 우위를 점합니다. Ahrabian은 "폐쇄형 소스 모델에서 몇 가지 사소하지 않은 결과를 보았습니다."라고 덧붙였습니다. "특히 GPT-4V는 추론에 비교적 좋았지만 완벽과는 거리가 멉니다."

AI가 넘어지는 부분

연구의 중요한 부분은 이러한 모델이 실패하는 부분을 분석하는 것이었습니다. 한 가지 중요한 문제는 AI가 시각 정보를 정확하게 처리하는 능력이었습니다. Ahrabian은 "우리는 모델이 색상이나 선이 충돌하는 것과 같은 세부 사항을 볼 수 있는지, 그리고 그것이 모델이 잘못 가고 있는 부분인지 알고 싶었습니다."라고 말했습니다.

문제를 분리하기 위해 연구자들은 이미지에 대한 자세한 텍스트 설명을 제공하여 모델이 다른 형식으로 필요한 모든 정보를 갖도록 했습니다. "시각적 요소를 제거하고 텍스트만 제공하더라도 많은 모델이 여전히 효과적으로 추론할 수 없었습니다." 소라티가 설명했습니다. 이를 통해 중요한 통찰력이 드러났습니다. 문제는 시각적 처리에만 있는 것이 아니라 추론 자체에도 있었습니다. 이제 팀은 무엇이 작동하지 않는지 더 명확하게 파악하여 초점을 다듬고 향후 개선 방향을 안내할 수 있었습니다.

앞으로의 길: AI의 추론 개선

연구자들이 탐구한 유망한 방법 중 하나는 AI가 추론 과제를 통해 단계별로 생각하도록 유도하는 "Chain of Thought prompting"이었습니다. 이 접근 방식은 어떤 경우에는 상당한 개선으로 이어졌습니다. Ahrabian은 "힌트로 모델을 안내함으로써 성능이 최대 100% 향상되는 것을 볼 수 있었습니다."라고 언급했습니다.

남은 과제에도 불구하고 연구자들은 낙관적입니다. 이 연구의 결과는 AI의 현재 한계와 미래 발전에 대한 흥미로운 가능성을 모두 강조합니다. 이러한 모델이 계속 발전함에 따라 USC의 연구는 이해할 뿐만 아니라 추론하는 AI의 길을 열 수 있으며, 기계 지능과 인간 인지의 경계가 모호해집니다.

새로운 컨퍼런스에서의 새로운 연구

토마스 로드 컴퓨터 과학과의 박사과정 학생인 아흐라비안과 소라티가 이번 주 COLM에서 다중 모달 대규모 언어 모델을 통한 비언어적 추상 추론의 흥미로운 사례라는 제목의 논문을 발표하면서, 이 컨퍼런스의 첫 해를 알렸습니다.

ISI의 지식 그래프 센터 소장이기도 한 푸자라는 "언어 모델의 등장으로 AI는 큰 변화를 겪고 있습니다. 이러한 진화를 지원하기 위한 COLM과 같은 새로운 컨퍼런스의 등장은 협업을 촉진하고 이 빠르게 발전하는 분야에 기여하고자 하는 학생들에게 영감을 줄 수 있는 좋은 방법입니다."라고 말했습니다.


출처: https://www.sciencedaily.com/releases/2024/10/241009183543.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요