엔지니어들이 AI를 사용해 실시간 통역을 통해 수화를 '생명'으로 구현
전 세계 수백만 명의 청각 장애인과 난청인에게 의사소통 장벽은 일상적인 소통을 어렵게 만듭니다. 수화 통역사와 같은 기존 솔루션은 종종 부족하고 비용이 많이 들며 인력에 의존합니다. 점점 더 디지털화되는 세상에서, 이러한 중요한 격차를 해소하기 위해 실시간으로 정확하고 접근 가능한 의사소통 솔루션을 제공하는 스마트 보조 기술에 대한 수요가 증가하고 있습니다.
미국 수화(ASL)는 가장 널리 사용되는 수화 중 하나로, 문자, 단어, 구문을 나타내는 독특한 손짓으로 구성됩니다. 기존 ASL 인식 시스템은 다양한 환경에서 실시간 성능, 정확도, 그리고 안정성 측면에서 어려움을 겪는 경우가 많습니다.
ASL 시스템의 주요 과제는 "A"와 "T" 또는 "M"과 "N"처럼 시각적으로 유사한 제스처를 구분하는 것인데, 이는 종종 오분류로 이어집니다. 또한, 데이터셋의 품질은 낮은 이미지 해상도, 모션 블러, 불규칙한 조명, 손 크기, 피부색, 배경의 차이 등 심각한 문제를 야기합니다. 이러한 요소들은 편향을 유발하고, 다양한 사용자와 환경에서 모델의 일반화 능력을 저하시킵니다.
이러한 과제를 해결하기 위해 플로리다 애틀랜틱 대학교 공과대학 및 컴퓨터과학부 연구진은 혁신적인 실시간 ASL 통역 시스템을 개발했습니다. YOLOv11의 객체 감지 기능과 MediaPipe의 정밀한 손 추적 기능을 결합한 이 시스템은 ASL 알파벳 문자를 실시간으로 정확하게 인식할 수 있습니다. 고급 딥러닝과 주요 손 위치 추적 기능을 활용하여 ASL 제스처를 텍스트로 변환하여 사용자가 이름, 위치 등을 매우 정확하게 대화형으로 입력할 수 있도록 지원합니다.
내장 웹캠은 비접촉 센서 역할을 하여 실시간 시각 데이터를 캡처하고, 이를 제스처 분석을 위한 디지털 프레임으로 변환합니다. MediaPipe는 각 손의 21개 핵심 지점을 식별하여 골격 지도를 생성하고, YOLOv11은 이러한 지점을 사용하여 미국 수화(ASL) 문자를 높은 정확도로 감지하고 분류합니다.
"이 시스템을 특히 주목할 만한 점은 제스처 캡처부터 분류까지 전체 인식 파이프라인이 조명 조건이나 배경 변화에 관계없이 실시간으로 원활하게 작동한다는 것입니다."라고 제1저자이자 FAU 전기공학 및 컴퓨터공학과 박사 과정생인 바데르 알샤리프는 말했습니다. "그리고 이 모든 것은 표준 기성 하드웨어를 사용하여 구현됩니다. 이는 접근성과 확장성이 뛰어난 보조 기술로서 이 시스템의 실질적인 잠재력을 강조하며, 실제 응용 분야에서 실행 가능한 솔루션이 될 것입니다."
센서스(Sensors) 저널에 게재된 이 연구 결과는 시스템의 효율성을 확인시켜 주며, 최소 지연 시간으로 98.2%의 정확도(평균 정밀도, mAP@0.5)를 달성했습니다. 이는 이 시스템이 실시간으로 높은 정밀도를 제공할 수 있음을 보여주는 것으로, 라이브 비디오 처리 및 인터랙티브 기술과 같이 빠르고 안정적인 성능이 필요한 애플리케이션에 이상적인 솔루션임을 보여줍니다.
13만 개의 이미지로 구성된 ASL 알파벳 손 제스처 데이터셋은 다양한 조건에서 촬영된 다양한 손 제스처를 포함하고 있어 모델의 일반화 성능을 향상시킵니다. 이러한 조건은 다양한 조명 환경(밝음, 어두움, 그림자), 다양한 배경(실외 및 실내 장면), 그리고 강건성을 보장하기 위한 다양한 손 각도 및 방향을 포함합니다.
각 이미지에는 손가락 끝, 손가락 관절, 손목 등 손의 핵심 구조를 강조하는 21개의 핵심점이 세심하게 주석 처리되어 있습니다. 이러한 주석은 손의 골격 지도를 제공하여 모델이 유사한 동작을 매우 정확하게 구분할 수 있도록 합니다.
"이 프로젝트는 최첨단 AI가 인류에게 어떻게 적용될 수 있는지를 보여주는 훌륭한 사례입니다."라고 FAU 전기공학 및 컴퓨터공학과 테코레(Tecore) 교수이자 공동 저자인 이마드 마구브(Imad Mahgoub) 박사는 말했습니다. "딥러닝과 손의 랜드마크 감지 기술을 융합하여, 저희 팀은 높은 정확도를 달성할 뿐만 아니라 일상생활에서도 접근성과 실용성을 갖춘 시스템을 개발했습니다. 이는 포용적 커뮤니케이션 기술을 향한 중요한 발걸음입니다."
미국의 청각 장애인 인구는 약 1,100만 명으로 전체 인구의 3.6%이며, 미국 성인의 약 15%(3,750만 명)가 청각 장애를 겪고 있습니다.
"이 연구의 의의는 미국 수화(ASL) 제스처를 텍스트로 변환하는 AI 기반 도구를 제공함으로써 청각 장애인 공동체의 의사소통 방식을 혁신할 잠재력에 있습니다. 이를 통해 교육, 직장, 의료 및 사회 환경 전반에서 더욱 원활한 상호작용을 가능하게 합니다."라고 FAU 전기공학 및 컴퓨터공학과 교수이자 공동 저자인 모하마드 일리아스 박사는 말했습니다. "강력하고 접근성이 뛰어난 ASL 통역 시스템을 개발함으로써, 본 연구는 청각 장애인과 난청인의 장벽을 허무는 보조 기술의 발전에 기여합니다."
향후 작업은 개별 ASL 문자 인식에서 전체 ASL 문장 해석까지 시스템 기능을 확장하는 데 집중할 것입니다. 이를 통해 더욱 자연스럽고 유연한 의사소통이 가능해져 사용자는 전체 생각과 문구를 매끄럽게 전달할 수 있을 것입니다.
"이 연구는 AI 기반 보조 기술이 청각 장애인 공동체에 힘을 실어주는 혁신적인 힘을 보여줍니다."라고 공과대학 및 컴퓨터과학대학 학장인 스텔라 바탈라마 박사는 말했습니다. "실시간 ASL 인식을 통해 의사소통 격차를 해소함으로써, 이 시스템은 더욱 포용적인 사회를 조성하는 데 중요한 역할을 합니다. 청각 장애인들이 자신을 소개하거나, 주변 환경을 탐색하거나, 단순히 일상적인 대화에 참여하는 등 주변 세계와 더욱 원활하게 소통할 수 있도록 지원합니다. 이 기술은 접근성을 향상시킬 뿐만 아니라 더 큰 사회 통합을 지원하여 모두를 위한 더욱 연결되고 공감하는 공동체를 만드는 데 기여합니다."
연구 공동 저자는 최근 FAU 공학 및 컴퓨터 과학부에서 박사 학위를 취득하고 사우디아라비아 타이바 대학의 조교수인 Easa Alalwany 박사와 FAU 공학 및 컴퓨터 과학부에서 박사 학위를 취득한 Ali Ibrahim 박사입니다.
출처: https://www.sciencedaily.com/releases/2025/04/250409114945.htm
댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요