구글의 딥페이크 헌터는 얼굴이 없는 영상에서도 당신이 볼 수 없는 것을 봅니다.

UNITE는 가장 그럴듯한 가짜 영상, 즉 단순히 얼굴만 바꾼 것이 아니라, 완전히 조작된 장면까지도 찾아내는 획기적인 AI 도구입니다. 출처: Shutterstock

조작된 영상이 허위 정보를 퍼뜨리고, 사람들을 괴롭히고, 해를 끼칠 수 있는 시대에, UC 리버사이드 연구진은 이런 가짜 영상을 폭로하는 강력한 새로운 시스템을 개발했습니다.

UCR의 Marlan 및 Rosemary Bourns 공과대학 출신인 전기 및 컴퓨터 공학 교수인 아밋 로이-초두리(Amit Roy-Chowdhury)와 박사 과정생인 로히트 쿤두(Rohit Kundu)는 구글 과학자들과 협력하여 얼굴 바꾸기나 음성 변조를 넘어선 영상 변조를 감지하는 인공지능 모델을 개발했습니다. (로이-초두리는 UCR의 새로운 학제간 연구 센터인 UC 리버사이드 인공지능 연구 및 교육(RAISE) 연구소의 공동 소장이기도 합니다.)

변조 및 합성 영상 식별을 위한 범용 네트워크(UNITE)라는 이름의 이 새로운 시스템은 얼굴뿐만 아니라 배경과 동작 패턴을 포함한 전체 영상 프레임을 분석하여 위조 여부를 감지합니다. 이러한 분석 덕분에 얼굴 정보에 의존하지 않는 합성 영상이나 조작된 영상을 식별할 수 있는 최초의 도구 중 하나가 되었습니다.

"딥페이크는 진화했습니다." 쿤두는 말했다. "더 이상 단순히 얼굴을 바꾸는 것에 그치지 않습니다. 사람들은 이제 강력한 생성 모델을 사용하여 얼굴부터 배경까지 완전히 가짜 영상을 만들고 있습니다. 저희 시스템은 이 모든 것을 포착하도록 설계되었습니다."

UNITE의 개발은 텍스트-비디오 및 이미지-비디오 생성 기술이 온라인에서 널리 보급됨에 따라 이루어졌습니다. 이러한 AI 플랫폼은 사실상 누구나 매우 설득력 있는 비디오를 제작할 수 있도록 지원하며, 이는 개인, 기관, 그리고 민주주의 자체에 심각한 위험을 초래합니다.

"이런 도구들이 얼마나 쉽게 접근할 수 있게 되었는지 정말 무섭습니다." 쿤두는 말했다. "보통 수준의 기술만 있으면 안전 필터를 우회해서 유명 인사들이 실제로 하지도 않은 말을 하는 현실적인 영상을 만들 수 있습니다."

쿤두는 이전의 딥페이크 감지기는 거의 전적으로 얼굴 신호에만 초점을 맞췄다고 설명했습니다.

"프레임에 얼굴이 없으면 대부분의 탐지기가 작동하지 않습니다."라고 그는 말했다. "하지만 허위 정보는 다양한 형태로 나타날 수 있습니다. 장면의 배경을 바꾸는 것만으로도 마찬가지로 쉽게 진실을 왜곡할 수 있습니다."

이 문제를 해결하기 위해 UNITE는 트랜스포머 기반 딥러닝 모델을 사용하여 비디오 클립을 분석합니다. 이 모델은 미묘한 공간적, 시간적 불일치를 감지하는데, 이는 기존 시스템에서 종종 놓치는 단서입니다. 이 모델은 특정 인물이나 사물에 국한되지 않은 특징을 추출하는 SigLIP이라는 기본 AI 프레임워크를 활용합니다. "주의 다양성 손실(attention-diversity loss)"이라는 새로운 훈련 방법은 시스템이 각 프레임에서 여러 시각 영역을 모니터링하도록 유도하여 얼굴에만 초점을 맞추지 않도록 합니다.

그 결과, 간단한 얼굴 바꾸기부터 실제 영상 없이 생성된 복잡하고 완전 합성된 영상까지 다양한 위조를 감지할 수 있는 범용 감지기가 탄생했습니다.

"이 모든 시나리오를 처리할 수 있는 하나의 모델입니다." 쿤두는 말했다. "그것이 바로 보편적인 이유죠."

연구진은 테네시주 내슈빌에서 개최된 2025년 컴퓨터 비전 및 패턴 인식 학회(CVPR)에서 연구 결과를 발표했습니다. Kundu가 주도한 "범용 합성 비디오 검출기를 향하여: 얼굴 또는 배경 조작에서 완전 AI 생성 콘텐츠까지"라는 제목의 이 논문은 UNITE의 아키텍처와 학습 방법론을 설명합니다. 공동 저자로는 구글 연구원인 하오 시옹, 비샬 모한티, 아툴라 발라찬드라가 있습니다. IEEE 컴퓨터 학회와 컴퓨터 비전 재단의 공동 후원을 받는 CVPR은 세계에서 가장 영향력 있는 과학 논문 출판 기관 중 하나입니다.

Kundu가 인턴으로 있었던 Google과의 협업을 통해 텍스트나 정지 이미지에서 생성된 비디오를 포함한 광범위한 합성 콘텐츠에 대한 모델을 훈련하는 데 필요한 광범위한 데이터 세트와 컴퓨팅 리소스에 액세스할 수 있었습니다. 이러한 형식은 기존 감지기를 종종 곤란하게 만듭니다.

아직 개발 중이기는 하지만, UNITE는 곧 영상 허위 정보 차단에 중요한 역할을 할 수 있을 것으로 예상됩니다. 소셜 미디어 플랫폼, 팩트체커, 그리고 조작된 영상의 확산을 막는 데 힘쓰는 언론사 등이 잠재적인 사용자로 활용될 수 있습니다.

"사람들은 자신이 보고 있는 것이 진짜인지 알 권리가 있습니다."라고 쿤두는 말했다. "그리고 AI가 현실을 조작하는 능력이 향상됨에 따라, 우리는 진실을 밝히는 능력도 향상되어야 합니다."


출처: https://www.sciencedaily.com/releases/2025/07/250724232412.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요