ChatGPT 및 비디오 게임 자산을 사용하여 재현된 Star Trek의 Holodeck

~ 안에 스타트렉: 넥스트 제너레이션, Picard 선장과 USS Enterprise의 승무원은 3D 환경을 생성할 수 있는 빈 방인 홀로데크를 활용하여 임무를 준비하고 즐거운 시간을 보내며 무성한 정글부터 셜록 홈즈의 런던까지 모든 것을 시뮬레이션합니다. 깊은 몰입감과 완전한 대화형 홀로데크 생성 환경은 언어만을 사용하여 무한히 사용자 정의할 수 있습니다. 승무원이 컴퓨터에 환경을 생성하도록 요청하기만 하면 해당 공간이 홀로데크에 나타납니다.

오늘날 가상 대화형 환경은 “Sim2Real”이라는 프로세스를 통해 실제 배포에 앞서 로봇을 훈련시키는 데에도 사용됩니다. 그러나 가상 대화형 환경은 놀라울 정도로 공급이 부족했습니다. 컴퓨터 및 정보 과학(CIS) 분야의 조교수이자 부교수인 Mark Yatskar와 Chris Callison-Burch 연구실의 박사 과정 학생인 Yue Yang은 “예술가들은 이러한 환경을 수동으로 만듭니다”라고 말합니다. “그 아티스트들은 단일 환경을 구축하는 데 일주일이 걸릴 수 있습니다.”라고 Yang은 공간 레이아웃부터 개체 배치, 렌더링에 사용된 색상에 이르기까지 관련된 모든 결정을 언급하면서 덧붙였습니다.

모든 복잡성이 있는 현실 세계를 탐색하도록 로봇을 훈련시키려는 경우 가상 환경의 부족은 문제입니다. 오늘날의 AI 혁명을 뒷받침하는 시스템인 신경망에는 엄청난 양의 데이터가 필요하며, 이 경우 물리적 세계의 시뮬레이션을 의미합니다. Callison-Burch는 “ChatGPT와 같은 생성적 AI 시스템은 수조 개의 단어로 훈련되고 Midjourney 및 DALLE와 같은 이미지 생성기는 수십억 개의 이미지로 훈련됩니다.”라고 말합니다. “우리는 소위 ‘체화된 AI’를 훈련하기 위한 3D 환경의 일부만을 보유하고 있습니다. 생성적 AI 기술을 사용하여 실제 환경에서 안전하게 탐색할 수 있는 로봇을 개발하려면 수백만 또는 수십억 개의 시뮬레이션 환경을 만들어야 합니다.”

Callison-Burch, Yatskar, Yang 및 Lingjie Liu(CIS 조교수 Aravind K. Joshi)와 Stanford, Washington University 및 Allen Institute의 협력자들이 공동 제작한 대화형 3D 환경 생성 시스템인 Holodeck을 소개합니다. 인공지능(AI2). 그것의 이름을 따서 명명되었습니다. 스타 트렉 최초의 Holodeck은 AI를 사용하여 사용자의 요청을 해석하여 사실상 무제한의 실내 환경을 생성합니다. “우리는 그것을 통제하기 위해 언어를 사용할 수 있습니다”라고 Yang은 말합니다. “원하는 환경을 쉽게 설명하고 구현된 AI 에이전트를 훈련시킬 수 있습니다.”

Holodeck은 LLM(대형 언어 모델), ChatGPT 기반 시스템 및 기타 챗봇에 내장된 지식을 활용합니다. “언어는 전 세계를 매우 간결하게 표현한 것입니다.”라고 Yang은 말합니다. 실제로 LLM은 훈련 중에 수집하는 방대한 양의 텍스트 덕분에 공간 디자인에 대해 놀라울 정도로 높은 수준의 지식을 갖고 있는 것으로 나타났습니다. 본질적으로 Holodeck은 사용자 요청을 특정 매개변수로 분류하기 위해 신중하게 구조화된 일련의 숨겨진 쿼리를 사용하여 LLM을 대화에 참여시키는 방식으로 작동합니다.

Captain Picard가 Star Trek의 Holodeck에 주류 밀매점 시뮬레이션을 요청한 것처럼, 연구자들은 Penn의 Holodeck에 “고양이를 키우는 연구원의 1b1b 아파트”를 만들어 달라고 요청할 수 있습니다. 시스템은 이 쿼리를 여러 단계로 나누어 실행합니다. 먼저 바닥과 벽을 만든 다음 출입구와 창문을 만듭니다. 다음으로 Holodeck은 사전 제작된 디지털 객체의 방대한 라이브러리인 Objaverse를 검색하여 커피 테이블, 캣타워 등 공간에서 기대할 수 있는 가구 유형을 검색합니다. 마지막으로 Holodeck은 연구자가 물체의 배치를 제한하여 벽에서 수평으로 연장되는 화장실이 생기지 않도록 설계한 레이아웃 모듈을 쿼리합니다.

Holodeck의 능력을 사실성과 정확성 측면에서 평가하기 위해 연구원들은 Holodeck과 ​​AI2가 만든 이전 도구인 ProcTHOR를 모두 사용하여 120개의 장면을 생성하고 수백 명의 Penn Engineering 학생들에게 어떤 장면이 생성되었는지 알지 못한 채 선호하는 버전을 표시하도록 요청했습니다. 어떤 도구로. 자산 선택, 레이아웃 일관성 및 전반적인 선호도 등 모든 기준에 대해 학생들은 Holodeck에서 생성된 환경을 일관되게 더 호의적으로 평가했습니다.

연구원들은 또한 로봇 연구에서 덜 일반적이고 상점, 공공 장소 및 사무실과 같은 아파트 내부보다 수동으로 생성하기 더 어려운 장면을 생성하는 Holodeck의 능력을 테스트했습니다. AI가 생성한 텍스트가 아닌 인간이 만든 규칙을 사용하여 생성된 ProcTHOR의 출력과 Holodeck의 출력을 비교한 결과, 연구진은 인간 평가자가 Holodeck이 만든 장면을 선호한다는 사실을 다시 한 번 발견했습니다. 이러한 선호는 과학 실험실에서 미술 스튜디오, 라커룸, 와인 저장고에 이르기까지 광범위한 실내 환경에 걸쳐 유지되었습니다.

마지막으로 연구원들은 Holodeck에서 생성된 장면을 사용하여 내장된 AI 에이전트를 “미세 조정”했습니다. Yatskar는 “Holodeck의 궁극적인 테스트는 이를 사용하여 로봇이 이전에 가본 적이 없는 장소에 거주할 수 있도록 준비함으로써 로봇이 환경과 보다 안전하게 상호 작용할 수 있도록 돕는 것”이라고 말합니다.

사무실, 어린이집, 체육관, 아케이드를 포함한 다양한 유형의 가상 공간에서 Holodeck은 에이전트의 새로운 공간 탐색 능력에 뚜렷하고 긍정적인 영향을 미쳤습니다.

예를 들어, 에이전트가 ProcTHOR(에이전트가 약 4억 개의 가상 단계를 수행함)를 사용하여 사전 학습한 경우 에이전트가 음악실에서 피아노를 성공적으로 발견한 경우는 약 6%에 불과한 반면, Holodeck에서 생성된 100개의 음악실을 사용하여 미세 조정되었습니다.

양 교수는 “이 분야는 오랫동안 주거 공간에 대한 연구를 정체해 왔다”고 말했다. “하지만 세상에는 다양한 환경이 너무 많습니다. 로봇을 훈련시키기 위해 많은 환경을 효율적으로 생성하는 것은 항상 큰 과제였지만 Holodeck은 이 기능을 제공합니다.”

출처: https://www.sciencedaily.com/releases/2024/04/240411130301.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요