로봇이 중요한 대상을 정확히 파악하도록 돕기

지저분한 주방을 정리해야 한다고 상상해보세요. 소스 패킷이 널려 있는 카운터부터 시작해서요. 카운터를 깨끗이 닦는 것이 목표라면 패킷을 그룹으로 쓸어 모을 수도 있습니다. 하지만 나머지를 버리기 전에 머스타드 패킷을 먼저 골라내고 싶다면 소스 종류별로 더 구별해서 분류할 것입니다. 그리고 머스타드 중에서 그레이 푸폰을 갈망한다면 이 특정 브랜드를 찾으려면 더 신중하게 검색해야 할 것입니다.

MIT 엔지니어들은 로봇이 유사하게 직관적이고 작업과 관련된 결정을 내릴 수 있는 방법을 개발했습니다.

Clio라는 이름의 이 팀의 새로운 접근 방식은 로봇이 주어진 과제에 따라 중요한 장면의 부분을 식별할 수 있게 해줍니다. Clio를 사용하면 로봇이 자연어로 설명된 과제 목록을 받고, 이러한 과제를 기반으로 주변 환경을 해석하고 관련 있는 장면의 부분만 "기억"하는 데 필요한 세분성 수준을 결정합니다.

MIT 캠퍼스의 5층 건물에서 복잡한 큐비클에 이르기까지 실제 실험에서 팀은 Clio를 사용하여 "잡지 선반 옮기기" 및 "응급처치 키트 가져오기"와 같은 자연어 프롬프트에 지정된 작업 집합을 기반으로 다양한 수준의 세부성으로 장면을 자동으로 세분화했습니다.

이 팀은 또한 4족보행 로봇에서 Clio를 실시간으로 실행했습니다. 로봇이 사무실 건물을 탐험할 때, Clio는 로봇의 작업과 관련된 장면의 부분만 식별하고 매핑했습니다(예: 사무용품 더미를 무시하면서 개 장난감을 가져오는 것). 이를 통해 로봇이 관심 있는 물체를 잡을 수 있었습니다.

클리오(Clio)는 역사의 그리스 뮤즈에서 따온 이름으로, 주어진 작업에 중요한 요소만 식별하고 기억하는 능력 때문입니다. 연구자들은 클리오가 로봇이 주어진 작업의 맥락에서 주변 환경을 빠르게 조사하고 이해해야 하는 많은 상황과 환경에서 유용할 것으로 예상합니다.

"수색 및 구조는 이 작업의 동기를 부여하는 응용 프로그램이지만, Clio는 가정용 로봇과 인간과 함께 공장에서 일하는 로봇에도 전원을 공급할 수 있습니다." MIT 항공우주학과(AeroAstro)의 준교수이자 정보 및 의사결정 시스템 연구실(LIDS)의 수석 연구원이며 MIT SPARK 연구실의 책임자인 루카 칼로네의 말입니다. "실제로 로봇이 환경을 이해하고 임무를 수행하기 위해 기억해야 할 사항을 이해하도록 돕는 것이 목적입니다."

이 팀은 오늘 저널 Robotics and Automation Letters 에 게재된 연구에서 결과를 자세히 설명합니다 . Carlone의 공동 저자에는 SPARK Lab의 구성원인 Dominic Maggio, Yun Chang, Nathan Hughes, Lukas Schmid와 MIT Lincoln Laboratory의 구성원인 Matthew Trang, Dan Griffith, Carlyn Dougherty, Eric Cristofalo가 포함됩니다.

열린 들판

컴퓨터 비전과 자연어 처리 분야의 엄청난 발전으로 로봇은 주변의 물체를 식별할 수 있게 되었습니다. 하지만 최근까지 로봇은 "폐쇄형" 시나리오에서만 그렇게 할 수 있었습니다. 즉, 로봇은 신중하게 큐레이팅되고 제어된 환경에서 작업하도록 프로그래밍되었으며, 로봇이 인식하도록 사전 훈련된 제한된 수의 물체가 있습니다.

최근 몇 년 동안 연구자들은 로봇이 더욱 현실적인 환경에서 물체를 인식할 수 있도록 하는 보다 "개방적인" 접근 방식을 취했습니다. 개방형 인식 분야에서 연구자들은 딥 러닝 도구를 활용하여 인터넷에서 수십억 개의 이미지와 각 이미지의 관련 텍스트(예: 친구가 Facebook에 올린 개 사진, "새 강아지를 만나보세요!"라는 제목)를 처리할 수 있는 신경망을 구축했습니다.

수백만 개의 이미지-텍스트 쌍에서 신경망은 개와 같은 특정 용어의 특징인 장면의 세그먼트를 학습한 다음 식별합니다. 그런 다음 로봇은 그 신경망을 적용하여 완전히 새로운 장면에서 개를 발견할 수 있습니다.

하지만 특정 작업에 적합한 유용한 방식으로 장면을 분석하는 방법은 여전히 ​​과제로 남아 있습니다.

"일반적인 방법은 장면의 세그먼트를 하나의 '객체'로 간주할 수 있는 것으로 융합하는 방법을 결정하기 위해 임의적이고 고정된 수준의 세분성을 선택합니다."라고 Maggio는 말합니다. "그러나 '객체'라고 부르는 것의 세분성은 실제로 로봇이 해야 할 일과 관련이 있습니다. 작업을 고려하지 않고 그 세분성이 고정되면 로봇은 작업에 유용하지 않은 맵을 갖게 될 수 있습니다."

정보 병목 현상

MIT 팀은 클리오를 통해 로봇이 주변 환경을 세부적으로 해석하고, 해당 작업에 자동으로 맞춰 조정할 수 있는 기능을 제공하는 것을 목표로 했습니다.

예를 들어, 책 더미를 선반으로 옮기는 작업이 주어지면 로봇은 책 더미 전체가 작업과 관련된 객체임을 판단할 수 있어야 합니다. 마찬가지로, 작업이 나머지 더미에서 녹색 책만 옮기는 것이라면 로봇은 녹색 책을 단일 대상 객체로 구별하고 나머지 장면(더미에 있는 다른 책 포함)을 무시해야 합니다.

이 팀의 접근 방식은 최첨단 컴퓨터 비전과 수백만 개의 오픈소스 이미지와 의미 텍스트를 연결하는 신경망으로 구성된 대규모 언어 모델을 결합합니다. 또한 이미지를 여러 개의 작은 세그먼트로 자동으로 분할하는 매핑 도구를 통합하여 신경망에 입력하여 특정 세그먼트가 의미적으로 유사한지 확인할 수 있습니다. 그런 다음 연구자들은 "정보 병목 현상"이라는 고전적 정보 이론의 아이디어를 활용하여 주어진 작업과 의미적으로 가장 관련성이 높은 세그먼트를 선택하여 저장하는 방식으로 여러 이미지 세그먼트를 압축합니다.

"예를 들어, 장면에 책 더미가 있고 제 작업은 녹색 책을 가져오는 것뿐이라고 가정해 보겠습니다. 그런 경우 우리는 이 모든 정보를 이 병목 현상에 밀어넣고 녹색 책을 나타내는 세그먼트 클러스터를 얻습니다." Maggio가 설명합니다. "관련이 없는 다른 모든 세그먼트는 간단히 제거할 수 있는 클러스터로 그룹화됩니다. 그러면 제 작업을 지원하는 데 필요한 적절한 세분성의 객체가 남습니다."

연구원들은 다양한 실제 환경에서 Clio를 시연했습니다.

"우리가 생각하기에 정말 실용적인 실험은 제 아파트에서 클리오를 돌리는 것이었습니다. 저는 미리 청소를 전혀 하지 않았습니다."라고 매지오는 말합니다.

팀은 "옷 더미 옮기기"와 같은 자연어 작업 목록을 작성한 다음, Maggio의 어수선한 아파트 이미지에 Clio를 적용했습니다. 이러한 경우, Clio는 아파트 장면을 빠르게 분할하고 Information Bottleneck 알고리즘을 통해 세그먼트를 입력하여 옷 더미를 구성하는 세그먼트를 식별할 수 있었습니다.

그들은 또한 Boston Dynamic의 4족보행 로봇인 Spot에서 Clio를 실행했습니다. 그들은 로봇에게 완료해야 할 작업 목록을 주었고, 로봇이 사무실 건물 내부를 탐험하고 지도를 그리는 동안 Clio는 Spot에 장착된 온보드 컴퓨터에서 실시간으로 실행되어 주어진 작업과 시각적으로 관련된 지도화된 장면에서 세그먼트를 선택했습니다. 이 방법은 대상 객체만 보여주는 오버레이 지도를 생성했고, 로봇은 이를 사용하여 식별된 객체에 접근하고 물리적으로 작업을 완료했습니다.

"Clio를 실시간으로 실행하는 것은 팀에 큰 성과였습니다." Maggio가 말했습니다. "이전 작업을 많이 실행하려면 몇 시간이 걸릴 수 있습니다."

앞으로 팀은 Clio를 더 높은 수준의 작업을 처리할 수 있도록 조정하고, 사실적인 시각적 장면 표현의 최신 발전을 바탕으로 작업할 계획입니다.

"우리는 여전히 클리오에게 '카드 한 벌 찾기'와 같이 다소 구체적인 작업을 제공하고 있습니다." 매지오가 말했습니다. "수색 및 구조의 경우 '생존자 찾기'나 '전원 다시 켜기'와 같이 더 높은 수준의 작업을 제공해야 합니다. 그래서 우리는 더 복잡한 작업을 수행하는 방법에 대한 보다 인간적인 수준의 이해를 얻고 싶습니다."

이 연구는 미국 국립과학재단, 스위스 국립과학재단, MIT 링컨 연구소, 미국 해군 연구소, 미국 육군 연구소 분산 및 협업 지능형 시스템 및 기술 협업 연구 연합의 지원을 받았습니다.


출처: https://www.sciencedaily.com/releases/2024/09/240930160224.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요