뇌에서 영감을 얻은 AI 혁신: 컴퓨터가 인간과 더욱 유사하게 볼 수 있도록 만들기

기초과학연구원(IBS), 연세대, 막스플랑크연구소 연구진은 머신 비전을 인간의 뇌가 이미지를 처리하는 방식에 더욱 근접하게 구현하는 새로운 인공지능(AI) 기법을 개발했습니다. Lp-Convolution이라는 이 기법은 기존 AI 모델의 연산 부담을 줄이는 동시에 이미지 인식 시스템의 정확도와 효율성을 향상시킵니다.

CNN과 인간 뇌 사이의 격차 해소

인간의 뇌는 복잡한 장면에서 핵심적인 세부 사항을 식별하는 데 매우 효율적이지만, 기존 AI 시스템은 이러한 능력을 재현하는 데 어려움을 겪었습니다. 이미지 인식에 가장 널리 사용되는 AI 모델인 합성곱 신경망(CNN)은 작고 정사각형 모양의 필터를 사용하여 이미지를 처리합니다. 이러한 융통성 없는 접근 방식은 효과적이지만, 단편화된 데이터에서 더 광범위한 패턴을 포착하는 데 한계가 있습니다.

최근 들어 비전 트랜스포머(ViT)는 전체 이미지를 한 번에 분석하여 뛰어난 성능을 보여주었지만, 엄청난 연산 능력과 대규모 데이터 세트를 필요로 하기 때문에 많은 실제 응용 프로그램에서는 실용적이지 않습니다.

연구팀은 뇌의 시각 피질이 원형의 희소한 연결을 통해 정보를 선택적으로 처리하는 방식에서 영감을 얻어 중간 지점을 모색했습니다. 뇌와 유사한 접근 방식으로 CNN을 효율적이면서도 강력하게 만들 수 있을까요?

Lp-Convolution 소개: 더 스마트하게 보는 방법

이 문제를 해결하기 위해 연구팀은 다변량 p-일반화 정규 분포(MPND)를 사용하여 CNN 필터를 동적으로 재구성하는 새로운 방법인 Lp-Convolution을 개발했습니다. 고정된 정사각형 필터를 사용하는 기존 CNN과 달리, Lp-Convolution은 AI 모델이 작업에 따라 필터 모양을 수평 또는 수직으로 조정할 수 있도록 합니다. 마치 인간의 뇌가 관련 세부 사항에 선택적으로 집중하는 것처럼 말입니다.

이 획기적인 발견은 AI 연구의 오랜 난제인 '대형 커널 문제(large kernel problem)'를 해결합니다. CNN의 필터 크기를 단순히 늘리는 것(예: 7×7 이상의 커널 사용)으로는 매개변수를 더 추가하더라도 성능이 향상되지 않는 경우가 많습니다. Lp-Convolution은 생물학적으로 영감을 받은 유연한 연결 패턴을 도입하여 이러한 한계를 극복합니다.

실제 성능: 더욱 강력하고, 더욱 스마트하고, 더욱 견고한 AI

표준 이미지 분류 데이터셋(CIFAR-100, TinyImageNet)을 사용한 테스트에서 Lp-Convolution은 AlexNet과 같은 기존 모델과 RepLKNet과 같은 최신 아키텍처 모두에서 정확도를 크게 향상시켰습니다. 또한 이 방법은 실제 AI 애플리케이션의 주요 과제인 손상된 데이터에 대해서도 매우 강건한 것으로 입증되었습니다.

게다가 연구진은 그들의 방법에 사용된 Lp-마스크가 가우시안 분포와 유사할 때 AI의 내부 처리 패턴이 생물학적 신경 활동과 밀접하게 일치한다는 것을 발견했는데, 이는 마우스 뇌 데이터와의 비교를 통해 확인되었습니다.

기초과학연구소(IBS) 인지 및 사회성 센터 소장인 C. 저스틴 리 박사는 "인간은 혼잡한 장면에서도 중요한 것을 빠르게 파악합니다."라고 말했습니다. "저희의 Lp-Convolution은 이러한 능력을 모방하여 AI가 마치 뇌처럼 이미지에서 가장 관련성 높은 부분에 유연하게 집중할 수 있도록 합니다."

영향 및 미래 응용 분야

작고 견고한 필터나 많은 리소스를 필요로 하는 변압기에 의존했던 이전 연구들과 달리, Lp-Convolution은 실용적이고 효율적인 대안을 제시합니다. 이 혁신은 다음과 같은 분야에 혁명을 일으킬 수 있습니다.

  1. 자율주행, AI가 실시간으로 장애물을 빠르게 감지해야 하는 시대
  2. 의료 영상, 미묘한 세부 사항을 강조하여 AI 기반 진단 개선
  3. 로봇공학을 통해 변화하는 환경에서 더욱 스마트하고 적응력 있는 머신 비전 구현

"이 연구는 AI와 신경과학 모두에 큰 기여를 할 것입니다."라고 C. 저스틴 리(C. Justin Lee) 소장은 말했습니다. "AI를 뇌에 더욱 밀접하게 연결함으로써 CNN의 새로운 잠재력을 열어주었고, CNN을 더욱 똑똑하고 적응력 있게 만들었으며, 생물학적으로 더욱 현실적으로 만들었습니다."

앞으로 연구팀은 이 기술을 더욱 개선하여 퍼즐 풀기(예: 수도쿠) 및 실시간 이미지 처리와 같은 복잡한 추론 작업에 적용하는 방안을 모색할 계획입니다.

이 연구는 2025년 국제 학습 표현 컨퍼런스(ICLR)에서 발표될 예정이며, 연구팀은 코드와 모델을 대중에 공개했습니다.


출처: https://www.sciencedaily.com/releases/2025/04/250422131924.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요