보다 효과적인 다목적 로봇을 위한 기술

도구 사용법을 이해하고 망치, 렌치, 드라이버를 사용하여 집 주변을 수리하는 방법을 빠르게 배울 수 있도록 로봇을 훈련시키고 싶다고 가정해 보겠습니다. 그러기 위해서는 도구 사용을 입증하는 엄청난 양의 데이터가 필요합니다.

기존 로봇 데이터 세트는 양식이 매우 다양합니다. 예를 들어 일부는 컬러 이미지를 포함하고 다른 일부는 촉각 각인으로 구성됩니다. 시뮬레이션이나 인간 데모와 같은 다양한 영역에서 데이터를 수집할 수도 있습니다. 그리고 각 데이터세트는 고유한 작업과 환경을 포착할 수 있습니다.

하나의 기계 학습 모델에 너무 많은 소스의 데이터를 효율적으로 통합하는 것은 어렵기 때문에 많은 방법에서는 한 가지 유형의 데이터만 사용하여 로봇을 훈련합니다. 그러나 상대적으로 적은 양의 작업별 데이터를 사용하여 이러한 방식으로 훈련된 로봇은 익숙하지 않은 환경에서 새로운 작업을 수행할 수 없는 경우가 많습니다.

더 나은 다목적 로봇을 훈련하기 위한 노력의 일환으로 MIT 연구원들은 확산 모델로 알려진 일종의 생성 AI를 사용하여 도메인, 양식 및 작업 전반에 걸쳐 여러 데이터 소스를 결합하는 기술을 개발했습니다.

하나의 특정 데이터 세트를 사용하여 하나의 작업을 완료하기 위한 전략이나 정책을 학습하기 위해 별도의 확산 모델을 훈련합니다. 그런 다음 확산 모델에서 학습한 정책을 로봇이 다양한 설정에서 여러 작업을 수행할 수 있도록 하는 일반 정책으로 결합합니다.

시뮬레이션과 실제 실험에서 이러한 훈련 접근 방식을 통해 로봇은 여러 도구 사용 작업을 수행하고 훈련 중에 보지 못한 새로운 작업에 적응할 수 있었습니다. 정책 구성(PoCo)으로 알려진 이 방법은 기본 기술과 비교할 때 작업 성능을 20% 향상시켰습니다.

“로봇 데이터 세트의 이질성을 해결하는 것은 닭 달걀 문제와 같습니다. 일반 로봇 정책을 훈련하기 위해 많은 데이터를 사용하려면 먼저 이 모든 데이터를 얻기 위해 배치 가능한 로봇이 필요합니다. 사용 가능한 모든 이질적인 데이터를 활용하는 것이 좋다고 생각합니다. 연구원들이 ChatGPT로 수행한 것과 유사한 것은 로봇 공학 분야에서 중요한 단계입니다.”라고 전기 공학 및 컴퓨터 과학(EECS) 대학원생이자 PoCo에 관한 논문의 주요 저자인 Lirui Wang은 말합니다.

Wang의 공동저자로는 기계공학 대학원생인 Jialiang Zhao; EECS 대학원생 Yilun Du; Edward Adelson, John and Dorothy Wilson, 뇌 및 인지과학과 시각 과학 교수이자 CSAIL(컴퓨터 과학 및 인공 지능 연구소) 회원; 수석 저자인 Russ Tedrake는 EECS, 항공 및 우주공학, 기계 공학 분야의 Toyota 교수이자 CSAIL의 회원입니다. 이 연구는 로봇 공학: 과학 및 시스템 컨퍼런스에서 발표될 예정입니다.

서로 다른 데이터 세트 결합

로봇 정책은 입력을 받아 이를 사용하여 작업을 수행하는 기계 학습 모델입니다. 정책을 생각하는 한 가지 방법은 전략으로서 생각하는 것입니다. 로봇 팔의 경우, 그 전략은 궤적일 수도 있고 팔을 움직여 망치를 집어 못을 박는 데 사용하는 일련의 자세일 수도 있습니다.

로봇 정책을 학습하는 데 사용되는 데이터 세트는 일반적으로 크기가 작으며 창고의 상자에 품목을 포장하는 것과 같은 하나의 특정 작업 및 환경에 중점을 둡니다.

Wang은 “모든 단일 로봇 창고는 테라바이트 규모의 데이터를 생성하지만 이는 해당 패키지에서 작동하는 특정 로봇 설치에만 속합니다. 이러한 모든 데이터를 사용하여 일반 기계를 교육하려는 경우에는 이상적이지 않습니다”라고 Wang은 말합니다.

MIT 연구원들은 많은 로봇 창고에서 수집한 것과 같은 일련의 작은 데이터 세트를 가져와 각각의 정책을 학습하고 로봇이 많은 작업에 일반화할 수 있는 방식으로 정책을 결합할 수 있는 기술을 개발했습니다.

이는 확산 모델로 알려진 생성적 AI 모델 유형을 사용하여 각 정책을 나타냅니다. 이미지 생성에 자주 사용되는 확산 모델은 출력을 반복적으로 개선하여 훈련 데이터 세트의 샘플과 유사한 새로운 데이터 샘플을 생성하는 방법을 학습합니다.

그러나 연구원들은 이미지를 생성하기 위해 확산 모델을 가르치는 대신 로봇의 궤적을 생성하도록 가르칩니다. 훈련 데이터 세트의 궤적에 노이즈를 추가하여 이를 수행합니다. 확산 모델은 점차적으로 노이즈를 제거하고 출력을 궤적으로 구체화합니다.

확산 정책(Diffusion Policy)으로 알려진 이 기술은 이전에 MIT, 컬럼비아 대학 및 Toyota Research Institute의 연구원들에 의해 도입되었습니다. PoCo는 이러한 확산 정책 작업을 기반으로 합니다.

팀은 인간의 비디오 시연이 포함된 데이터 세트와 로봇 팔의 원격 조작을 통해 수집된 데이터 세트 등 다양한 유형의 데이터 세트를 사용하여 각 확산 모델을 교육합니다.

그런 다음 연구원은 모든 확산 모델에서 학습한 개별 정책의 가중치 조합을 수행하고, 결합된 정책이 각 개별 정책의 목표를 충족하도록 출력을 반복적으로 개선합니다.

부분의 합보다 크다

“이 접근 방식의 장점 중 하나는 정책을 결합하여 두 세계의 장점을 모두 얻을 수 있다는 것입니다. 예를 들어 실제 데이터로 훈련된 정책은 더 많은 민첩성을 달성할 수 있는 반면, 시뮬레이션으로 훈련된 정책은 더 많은 민첩성을 달성할 수 있습니다. 더 많은 일반화를 달성하기 위해”라고 Wang은 말합니다.

정책은 별도로 훈련되기 때문에 특정 작업에 대해 더 나은 결과를 얻기 위해 확산 정책을 혼합하고 일치시킬 수 있습니다. 사용자는 전체 프로세스를 처음부터 시작하는 대신 해당 데이터세트로 추가 확산 정책을 교육하여 새로운 형식이나 도메인에 데이터를 추가할 수도 있습니다.

연구원들은 망치를 사용하여 못을 두드리고 주걱으로 물체를 뒤집는 등 다양한 도구 작업을 수행하는 시뮬레이션과 실제 로봇 팔에서 PoCo를 테스트했습니다. PoCo는 기본 방법에 비해 작업 성능이 20% 향상되었습니다.

“놀라운 점은 우리가 튜닝을 마치고 시각화했을 때 구성된 궤적이 개별적으로 어느 것보다 훨씬 더 좋아 보인다는 것을 분명히 알 수 있다는 것입니다.”라고 Wang은 말합니다.

앞으로 연구원들은 로봇이 하나의 도구를 집어 사용하고 다른 도구로 전환하는 장거리 작업에 이 기술을 적용하기를 원합니다. 또한 성능을 향상시키기 위해 더 큰 로봇 공학 데이터 세트를 통합하려고 합니다.

“로봇공학이 성공하려면 인터넷 데이터, 시뮬레이션 데이터, 실제 로봇 데이터 등 세 가지 종류의 데이터가 모두 필요합니다. 이들을 어떻게 효과적으로 결합할 것인가는 백만 달러 규모의 문제가 될 것입니다. PoCo는 올바른 방향으로 나아가는 견고한 발걸음입니다.” NVIDIA의 수석 연구 과학자이자 AI Agents Initiative의 리더인 Jim Fan은 이 작업에 참여하지 않았습니다.

이 연구는 부분적으로 Amazon, 싱가포르 국방과학기술청, 미국 국립과학재단, Toyota 연구소의 자금 지원을 받습니다.

출처: https://www.sciencedaily.com/releases/2024/06/240603172233.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요