일반 용도 로봇을 훈련하는 더 빠르고 더 나은 방법
고전 만화 "제트슨"에서 로봇 하인 로지는 집안 청소에서 저녁 요리, 쓰레기 버리기로 매끄럽게 전환합니다. 하지만 현실 세계에서 범용 로봇을 훈련하는 것은 여전히 큰 과제입니다.
일반적으로 엔지니어는 특정 로봇과 작업에 대한 구체적인 데이터를 수집하여 통제된 환경에서 로봇을 훈련하는 데 사용합니다. 그러나 이러한 데이터를 수집하는 데는 비용이 많이 들고 시간이 많이 걸리며 로봇은 이전에 본 적이 없는 환경이나 작업에 적응하는 데 어려움을 겪을 가능성이 높습니다.
MIT 연구진은 범용 로봇을 더 잘 훈련시키기 위해 다양한 출처에서 얻은 방대한 양의 이기종 데이터를 하나의 시스템으로 결합하는 다재다능한 기술을 개발했는데, 이 기술은 모든 로봇에 광범위한 작업을 가르칠 수 있습니다.
이들의 방법은 시뮬레이션과 실제 로봇과 같은 다양한 도메인과 비전 센서, 로봇 팔 위치 인코더를 포함한 여러 모달리티의 데이터를 생성 AI 모델이 처리할 수 있는 공유 "언어"로 정렬하는 것을 포함합니다.
이렇게 엄청난 양의 데이터를 결합하면 이 방법을 사용하면 로봇이 다양한 작업을 수행하도록 훈련할 수 있으며, 매번 처음부터 훈련을 시작할 필요가 없습니다.
이 방법은 기존 기술보다 훨씬 더 빠르고 비용이 적게 들 수 있는데, 훨씬 적은 작업별 데이터가 필요하기 때문입니다. 게다가 시뮬레이션과 실제 실험에서 처음부터 훈련하는 것보다 20% 이상 더 나은 성과를 보였습니다.
"로봇공학에서 사람들은 종종 충분한 훈련 데이터가 없다고 주장합니다. 하지만 제 생각에 또 다른 큰 문제는 데이터가 너무나 다양한 도메인, 양식, 로봇 하드웨어에서 나온다는 것입니다. 저희의 연구는 이 모든 것을 합친 로봇을 어떻게 훈련할 수 있는지 보여줍니다." 전기공학 및 컴퓨터 과학(EECS) 대학원생이자 이 기술에 대한 논문의 주저자인 리루이 왕의 말입니다.
Wang의 공동 저자로는 EECS 대학원생 Jialiang Zhao, Meta의 연구 과학자 Xinlei Chen, EECS의 준교수이자 Computer Science and Artificial Intelligence Laboratory(CSAIL)의 일원인 수석 저자 Kaiming He가 있습니다. 이 연구는 Neural Information Processing Systems 컨퍼런스에서 발표될 예정입니다.
LLM에서 영감을 받음
로봇 "정책"은 로봇 팔의 속도와 위치를 추적하는 카메라 이미지나 고유 감각 측정과 같은 센서 관찰 결과를 수용한 다음 로봇에게 어떻게 그리고 어디로 이동해야 하는지 알려줍니다.
정책은 일반적으로 모방 학습을 사용하여 훈련되는데, 즉 인간이 행동을 보여주거나 로봇을 원격 조작하여 데이터를 생성하고, 이 데이터는 정책을 학습하는 AI 모델에 입력됩니다. 이 방법은 소량의 작업별 데이터를 사용하기 때문에 로봇은 환경이나 작업이 변경되면 종종 실패합니다.
더 나은 접근 방식을 개발하기 위해 Wang과 그의 협력자들은 GPT-4와 같은 대규모 언어 모델에서 영감을 얻었습니다.
이러한 모델은 다양한 언어 데이터를 엄청나게 많이 사용하여 사전 학습한 다음, 소량의 작업별 데이터를 공급하여 미세 조정합니다. 이렇게 많은 데이터에 대한 사전 학습은 모델이 다양한 작업에서 잘 수행하도록 적응하는 데 도움이 됩니다.
"언어 도메인에서 데이터는 모두 문장일 뿐입니다. 로봇공학에서 데이터의 모든 이질성을 감안할 때, 비슷한 방식으로 사전 학습하려면 다른 아키텍처가 필요합니다."라고 그는 말합니다.
로봇 데이터는 카메라 이미지부터 언어 지침, 깊이 맵까지 다양한 형태를 띱니다. 동시에 각 로봇은 기계적으로 고유하며, 팔, 그리퍼, 센서의 수와 방향이 다릅니다. 게다가 데이터가 수집되는 환경은 매우 다양합니다.
MIT 연구원들은 다양한 모드와 도메인의 데이터를 통합하는 이기종 사전 학습 변압기(HPT)라는 새로운 아키텍처를 개발했습니다.
그들은 시각과 고유 감각 입력을 처리하는 트랜스포머라는 기계 학습 모델을 아키텍처 중앙에 넣었습니다. 트랜스포머는 대규모 언어 모델의 중추를 형성하는 것과 동일한 유형의 모델입니다.
연구자들은 시각과 고유 감각의 데이터를 토큰이라고 하는 동일한 유형의 입력으로 정렬하고, 이를 변환기가 처리할 수 있습니다. 각 입력은 동일한 고정된 수의 토큰으로 표현됩니다.
그런 다음 변환기는 모든 입력을 하나의 공유 공간으로 매핑하여 더 많은 데이터를 처리하고 학습하면서 거대한 사전 학습된 모델로 성장합니다. 변환기가 커질수록 성능이 더 좋아집니다.
사용자는 HPT에 로봇의 설계, 설정 및 수행하려는 작업에 대한 소량의 데이터만 제공하면 됩니다. 그런 다음 HPT는 사전 훈련 중에 변압기가 얻은 지식을 전송하여 새 작업을 학습합니다.
섬세한 동작 가능
HPT를 개발하는 데 있어 가장 큰 과제 중 하나는 변압기를 사전 훈련시키기 위한 방대한 데이터 세트를 구축하는 것이었는데, 여기에는 인간 데모 비디오와 시뮬레이션을 포함한 4개 카테고리에서 200,000개 이상의 로봇 궤적이 포함된 52개 데이터 세트가 포함되었습니다.
연구진은 또한 센서 배열에서 얻은 원시 고유감각 신호를 변환기가 처리할 수 있는 데이터로 전환하는 효율적인 방법을 개발해야 했습니다.
"Proprioception은 많은 능숙한 동작을 가능하게 하는 데 중요합니다. 우리 아키텍처에서 토큰의 수는 항상 동일하기 때문에 우리는 Proprioception과 시각에 동일한 중요성을 둡니다."라고 Wang은 설명합니다.
그들이 HPT를 테스트했을 때, 매번 처음부터 훈련하는 것과 비교했을 때 시뮬레이션과 실제 작업에서 로봇 성능이 20% 이상 향상되었습니다. 작업이 사전 훈련 데이터와 매우 달랐을 때에도 HPT는 여전히 성능을 향상시켰습니다.
앞으로 연구자들은 데이터 다양성이 HPT의 성능을 어떻게 향상시킬 수 있는지 연구하고 싶어합니다. 또한 HPT를 향상시켜 GPT-4 및 기타 대규모 언어 모델과 같은 레이블이 지정되지 않은 데이터를 처리할 수 있도록 하려고 합니다.
"우리의 꿈은 아무런 훈련 없이도 로봇에 다운로드하여 사용할 수 있는 보편적인 로봇 두뇌를 갖는 것입니다. 아직 초기 단계이기는 하지만, 우리는 계속해서 열심히 노력할 것이고, 대규모 언어 모델에서처럼 로봇 정책에서 획기적인 진전이 있기를 바랍니다."라고 그는 말합니다.
출처: https://www.sciencedaily.com/releases/2024/10/241028164536.htm
댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요