새로운 AI 기술로 실제 물체의 3D 캡처 및 편집 가능
스마트폰으로 물체 주위를 스윕하고 어떤 각도에서든 볼 수 있는 사실적이고 완전히 편집 가능한 3D 모델을 얻는다고 상상해 보세요. 이는 AI의 발전 덕분에 빠르게 현실이 되고 있습니다.
캐나다 사이먼 프레이저 대학(SFU)의 연구원들은 이를 정확하게 수행하기 위한 새로운 AI 기술을 공개했습니다. 머지않아 일반 소비자들은 단순히 2D 사진을 찍는 것이 아니라, 오늘날의 일반 2D 사진처럼 쉽게 실제 사물을 3D로 촬영하고 모양과 모양을 원하는 대로 편집할 수 있게 될 것입니다.
AI 연구에 관한 연례 주요 국제 회의인 루이지애나주 뉴올리언스에서 열린 신경 정보 처리 시스템 회의(NeurIPS)에서 발표된 새 논문에서 연구원들은 일련의 데이터를 변환할 수 있는 PAPR(Proximity Attention Point Rendering)이라는 새로운 기술을 시연했습니다. 물체의 2D 사진을 물체의 모양과 외양을 나타내는 3D 점 구름으로 표현합니다. 그런 다음 각 점은 사용자에게 개체를 제어할 수 있는 손잡이를 제공합니다. 점을 드래그하면 개체의 모양이 변경되고, 점의 속성을 편집하면 개체의 모양이 변경됩니다. 그런 다음 “렌더링”이라는 프로세스를 통해 3D 포인트 클라우드를 어떤 각도에서든 볼 수 있으며 실제 해당 각도에서 사진을 찍은 것처럼 편집된 개체를 보여주는 2D 사진으로 바뀔 수 있습니다.
연구원들은 새로운 AI 기술을 사용하여 조각상에 생명을 불어넣는 방법을 보여주었습니다. 이 기술은 자동으로 조각상의 사진 세트를 3D 포인트 클라우드로 변환한 다음 애니메이션으로 표시합니다. 최종 결과는 관람객이 동상 주변 경로를 안내할 때 동상이 머리를 좌우로 돌리는 영상입니다.
AI와 기계 학습은 실제로 2D 이미지에서 3D 객체를 재구성하는 패러다임 전환을 주도하고 있습니다. 컴퓨터 비전 및 자연어와 같은 분야에서 기계 학습의 놀라운 성공은 연구자들이 최근 폭주하는 AI 성공 사례를 담당했던 것과 동일한 딥 러닝 기반 구성 요소를 사용하여 전통적인 3D 그래픽 파이프라인을 어떻게 리엔지니어링할 수 있는지 조사하도록 영감을 주고 있습니다. “라고 Simon Fraser University(SFU)의 컴퓨터 과학 조교수이자 APEX 연구소 소장이자 논문의 선임 저자인 Dr. Ke Li는 말했습니다. “성공적으로 수행하는 것은 우리가 예상했던 것보다 훨씬 더 어려운 것으로 나타났습니다. 여러 기술적 과제를 극복해야 합니다. 나를 가장 흥분시키는 것은 이것이 소비자 기술에 가져오는 많은 가능성입니다. 3D는 오늘날의 2D만큼 시각적 의사소통 및 표현을 위한 일반적인 매체가 될 수 있습니다.”
3D의 가장 큰 과제 중 하나는 사용자가 쉽고 직관적으로 편집할 수 있는 방식으로 3D 모양을 표현하는 방법입니다. NeRF(신경 복사 필드)로 알려진 이전 접근 방식 중 하나는 사용자가 모든 연속 좌표에 어떤 일이 발생하는지에 대한 설명을 제공해야 하기 때문에 쉬운 모양 편집을 허용하지 않습니다. 3DGS(3D Gaussian splatting)로 알려진 최신 접근 방식도 모양 편집에 적합하지 않습니다. 편집 후 모양 표면이 분쇄되거나 조각으로 찢어질 수 있기 때문입니다.
연구원들이 포인트 클라우드의 각 3D 포인트를 개별 스플랫으로 간주하는 대신 연속 보간기의 제어점으로 생각할 수 있다는 사실을 깨달았을 때 중요한 통찰력이 나왔습니다. 그런 다음 점이 이동하면 직관적인 방식으로 모양이 자동으로 변경됩니다. 이는 애니메이터가 애니메이션 비디오에서 객체의 모션을 정의하는 방법과 유사합니다. 특정 시점의 객체 위치를 지정하면 모든 시점의 모션이 보간기에 의해 자동으로 생성됩니다.
그러나 임의의 3D 점 집합 사이의 보간기를 수학적으로 정의하는 방법은 간단하지 않습니다. 연구원들은 근접 주의(Proximity Attention)라고 알려진 새로운 메커니즘을 사용하여 엔드투엔드 방식으로 보간기를 학습할 수 있는 기계 학습 모델을 공식화했습니다.
이러한 기술적 도약을 인정받아 이 논문은 NeurIPS 컨퍼런스에서 주목을 받았는데, 이는 컨퍼런스에 제출된 논문 중 상위 3.6%에게 주어지는 영예입니다.
연구팀은 앞으로 어떤 일이 일어날지 매우 기대하고 있습니다. Li 박사는 “이것은 우리가 시연한 것 이상으로 많은 응용 분야에 대한 길을 열어줍니다.”라고 말했습니다. “우리는 이미 PAPR을 활용하여 움직이는 3D 장면을 모델링하는 다양한 방법을 모색하고 있으며 지금까지의 결과는 믿을 수 없을 만큼 유망합니다.”
논문의 저자는 Yanshu Zhang, Shichong Peng, Alireza Moazeni 및 Ke Li입니다. Zhang과 Peng은 공동 제1저자이고, Zhang, Peng 및 Moazeni는 컴퓨터 과학 대학의 박사 과정 학생이며 모두 Simon Fraser University(SFU)의 APEX Lab 회원입니다.
출처: https://www.sciencedaily.com/releases/2024/03/240313135605.htm
댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요