무작위 로봇이 더 안정적입니다.
노스웨스턴 대학교(Northwestern University) 엔지니어들이 스마트 로봇 공학을 위해 특별히 설계된 새로운 인공 지능(AI) 알고리즘을 개발했습니다. 로봇이 복잡한 기술을 신속하고 안정적으로 학습할 수 있도록 지원함으로써 새로운 방법은 자율 주행 자동차, 배달 드론, 가정 보조원 및 자동화를 포함한 다양한 응용 분야에서 로봇의 실용성과 안전성을 크게 향상시킬 수 있습니다.
최대 확산 강화 학습(MaxDiff RL)이라고 불리는 이 알고리즘의 성공은 로봇이 다양한 경험을 얻기 위해 가능한 한 무작위로 환경을 탐색하도록 장려하는 능력에 있습니다. 이러한 “설계된 무작위성”은 로봇이 주변 환경에 대해 수집하는 데이터의 품질을 향상시킵니다. 그리고 더 높은 품질의 데이터를 사용함으로써 시뮬레이션된 로봇은 더 빠르고 효율적인 학습을 보여 전반적인 신뢰성과 성능을 향상시켰습니다.
다른 AI 플랫폼에 대해 테스트했을 때 Northwestern의 새로운 알고리즘을 사용하는 시뮬레이션된 로봇은 지속적으로 최첨단 모델보다 성능이 뛰어났습니다. 실제로 새로운 알고리즘은 매우 잘 작동하여 로봇은 새로운 작업을 학습한 다음 한 번의 시도로 성공적으로 수행합니다. 즉, 처음부터 올바른 작업을 수행하는 것입니다. 이는 시행착오를 통해 학습 속도를 늦추는 현재 AI 모델과 극명하게 대조됩니다.
해당 연구는 목요일(5월 2일) 저널에 게재될 예정입니다. 자연 기계 지능.
연구를 주도한 Northwestern의 Thomas Berrueta는 “다른 AI 프레임워크는 다소 신뢰할 수 없을 수 있습니다.”라고 말했습니다. “때때로 작업을 완전히 완료할 수도 있지만 때로는 완전히 실패할 수도 있습니다. 우리의 프레임워크를 사용하면 로봇이 작업을 전혀 해결할 수 있는 한 로봇을 켤 때마다 로봇이 수행할 것으로 기대할 수 있습니다. 이를 통해 로봇의 성공과 실패를 더 쉽게 해석할 수 있으며, 이는 AI에 점점 더 의존하는 세계에서 매우 중요합니다.”
Berrueta는 노스웨스턴 대학의 대통령 연구원이자 박사 학위입니다. McCormick School of Engineering의 기계 공학 후보자입니다. McCormick의 기계 공학 교수이자 Berrueta의 고문인 로봇 공학 전문가인 Todd Murphey가 논문의 수석 저자입니다. Berrueta와 Murphey는 역시 Ph.D.인 Allison Pinosky와 함께 논문을 공동 집필했습니다. 머피 연구실의 후보자.
실체 없는 연결 해제
기계 학습 알고리즘을 훈련하기 위해 연구원과 개발자는 인간이 신중하게 필터링하고 선별하는 대량의 빅 데이터를 사용합니다. AI는 최적의 결과에 도달할 때까지 시행착오를 거쳐 이 훈련 데이터로부터 학습합니다. 이 프로세스는 ChatGPT 및 Google Gemini(이전의 Bard)와 같은 구현되지 않은 시스템에는 잘 작동하지만 로봇과 같은 구현된 AI 시스템에는 작동하지 않습니다. 대신 로봇은 인간 큐레이터의 도움 없이 스스로 데이터를 수집합니다.
Murphey는 “전통적인 알고리즘은 두 가지 다른 방식으로 로봇 공학과 호환되지 않습니다.”라고 말했습니다. “첫째, 분리된 시스템은 물리적 법칙이 적용되지 않는 세계를 활용할 수 있습니다. 둘째, 개별적인 실패에는 결과가 없습니다. 컴퓨터 과학 응용 분야의 경우 중요한 것은 대부분의 경우 성공한다는 것입니다. 로봇 공학에서는 한 가지 실패가 발생합니다. 재앙이 될 수도 있다”
이러한 단절을 해결하기 위해 Berrueta, Murphey 및 Pinosky는 로봇이 이동 중에도 고품질 데이터를 수집할 수 있도록 보장하는 새로운 알고리즘을 개발하는 것을 목표로 했습니다. MaxDiff RL은 기본적으로 로봇이 환경에 대한 철저하고 다양한 데이터를 수집하기 위해 더 무작위로 움직이도록 명령합니다. 로봇은 스스로 선별한 무작위 경험을 통해 학습함으로써 유용한 작업을 수행하는 데 필요한 기술을 습득합니다.
처음으로 제대로 이해하기
새로운 알고리즘을 테스트하기 위해 연구원들은 이를 현재의 최첨단 모델과 비교했습니다. 연구진은 컴퓨터 시뮬레이션을 사용하여 시뮬레이션된 로봇에게 일련의 표준 작업을 수행하도록 요청했습니다. 전반적으로 MaxDiff RL을 사용하는 로봇은 다른 모델보다 빠르게 학습했습니다. 그들은 또한 다른 사람들보다 훨씬 일관되고 안정적으로 작업을 올바르게 수행했습니다.
아마도 훨씬 더 인상적일 것입니다. MaxDiff RL 방법을 사용하는 로봇은 종종 한 번의 시도로 작업을 올바르게 수행하는 데 성공했습니다. 심지어 아무런 지식 없이 시작했을 때도 그렇습니다.
Berrueta는 “우리 로봇은 더 빠르고 민첩해 학습한 내용을 효과적으로 일반화하고 새로운 상황에 적용할 수 있었습니다.”라고 말했습니다. “로봇이 시행착오를 겪으며 끝없는 시간을 감당할 수 없는 실제 응용 분야의 경우 이는 큰 이점입니다.”
MaxDiff RL은 일반적인 알고리즘이므로 다양한 응용에 사용될 수 있습니다. 연구원들은 이것이 해당 분야를 방해하는 근본적인 문제를 해결하고 궁극적으로 스마트 로봇 공학에서 신뢰할 수 있는 의사 결정을 위한 길을 닦기를 희망합니다.
피노스키는 “이동하는 로봇 차량에만 사용될 필요는 없다”고 말했다. “식기세척기를 넣는 방법을 배우는 주방의 로봇 팔과 같은 고정식 로봇에도 사용될 수 있습니다. 작업과 물리적 환경이 더욱 복잡해짐에 따라 학습 과정에서 고려해야 할 구현의 역할이 더욱 중요해집니다. 이는 더 복잡하고 흥미로운 작업을 수행하는 실제 시스템을 향한 중요한 단계입니다.”
“최대 확산 강화 학습”이라는 연구는 미 육군 연구실(지원 번호 W911NF-19-1-0233)과 미 해군 연구실(지원 번호 N00014-21-1-2706)의 지원을 받았습니다.
출처: https://www.sciencedaily.com/releases/2024/05/240502113808.htm

댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요