새로운 교육 접근 방식은 불확실한 조건에서 AI 에이전트의 성능을 향상시키는 데 도움이 될 수 있습니다.
공장에서 집안일을 하도록 훈련된 가정용 로봇이 사용자의 주방에 배치되면 싱크대를 닦거나 쓰레기를 내는 데 효과적으로 실패할 수도 있습니다. 이 새로운 환경은 훈련 공간과 다르기 때문입니다.
이를 피하기 위해 엔지니어는 종종 시뮬레이션된 훈련 환경을 에이전트가 배치될 실제 세계와 최대한 일치시키려고 노력합니다.
그러나 MIT를 비롯한 연구진은 이러한 통념에도 불구하고 때로는 완전히 다른 환경에서 훈련을 하면 더 나은 성능을 보이는 인공 지능 에이전트가 탄생한다는 사실을 발견했습니다.
연구 결과에 따르면, 어떤 상황에서는 불확실성이나 "노이즈"가 적은 세상에서 시뮬레이션된 AI 에이전트를 훈련시키면, 두 에이전트를 모두 테스트하는 데 사용한 동일하고 노이즈가 많은 세상에서 훈련된 경쟁 AI 에이전트보다 더 나은 성과를 낼 수 있다는 것이 밝혀졌습니다.
연구자들은 이 예상치 못한 현상을 실내 훈련 효과라고 부릅니다.
"소음이 없는 실내 환경에서 테니스를 치는 법을 배우면, 다양한 샷을 더 쉽게 마스터할 수 있을지도 모릅니다. 그런 다음 바람이 많이 부는 테니스 코트와 같이 소음이 많은 환경으로 이동하면 바람이 많이 부는 환경에서 배우기 시작했을 때보다 테니스를 잘 칠 확률이 더 높을 수 있습니다." MIT 미디어 랩의 연구 조수이자 실내 훈련 효과에 대한 논문의 주저자인 세레나 보노가 설명합니다.
연구자들은 AI 에이전트에게 Atari 게임을 하도록 훈련시켜 이 현상을 연구했고, 예측 불가능성을 추가하여 수정했습니다. 그들은 실내 훈련 효과가 Atari 게임과 게임 변형에서 일관되게 나타났다는 사실에 놀랐습니다.
그들은 이러한 결과가 AI 에이전트를 위한 더 나은 훈련 방법을 개발하기 위한 추가 연구에 활력을 불어넣기를 바랍니다.
"이것은 생각해야 할 완전히 새로운 축입니다. 훈련 및 테스트 환경을 맞추려고 하기보다는 AI 에이전트가 더 잘 학습하는 시뮬레이션 환경을 구성할 수 있을지도 모릅니다." 하버드 대학교 대학원생이자 공동 저자인 스판단 마단이 덧붙였습니다.
Bono와 Madan은 MIT 대학원생인 Ishaan Grover, Yale University 대학원생인 Mao Yasueda, MIT Media Lab의 미디어 예술 및 과학 교수이자 Personal Robotics Group의 리더인 Cynthia Breazeal, Harvard의 컴퓨터 과학 An Wang 교수인 Hanspeter Pfister, Harvard Medical School의 교수인 Gabriel Kreiman과 함께 논문에 참여했습니다. 이 연구는 Association for the Advancement of Artificial Intelligence Conference에서 발표될 예정입니다.
훈련 문제
연구자들은 강화 학습 에이전트가 훈련 공간과 다른 환경에서 테스트되었을 때 왜 그렇게 처참한 성능을 보이는지 알아내기 시작했습니다.
강화 학습은 에이전트가 훈련 공간을 탐색하고 보상을 극대화하는 행동을 취하는 방법을 학습하는 시행착오법입니다.
이 팀은 전이 함수라고 불리는 강화 학습 문제의 한 요소에 특정 양의 노이즈를 명시적으로 추가하는 기술을 개발했습니다. 전이 함수는 에이전트가 선택한 행동에 따라 한 상태에서 다른 상태로 이동할 확률을 정의합니다.
에이전트가 팩맨을 플레이하는 경우, 전환 함수는 게임 보드의 유령이 위, 아래, 왼쪽 또는 오른쪽으로 이동할 확률을 정의할 수 있습니다. 표준 강화 학습에서 AI는 동일한 전환 함수를 사용하여 훈련되고 테스트됩니다.
연구자들은 이러한 기존 방식을 사용해 전환 함수에 노이즈를 추가했고 예상대로 에이전트의 팩맨 성능이 저하되었습니다.
하지만 연구원들이 노이즈가 없는 팩맨 게임으로 에이전트를 훈련시킨 다음 전환 함수에 노이즈를 주입한 환경에서 테스트한 결과, 노이즈가 있는 게임에서 훈련된 에이전트보다 성능이 더 좋았습니다.
"경험칙은 훈련 중에 최대한의 효과를 얻기 위해 배포 조건의 전환 기능을 포착해야 한다는 것입니다. 우리는 스스로 믿을 수 없어서 이 통찰력을 죽음까지 시험했습니다."라고 마단은 말합니다.
전이 함수에 다양한 양의 노이즈를 주입하면 연구자들은 여러 환경을 테스트할 수 있지만, 현실적인 게임을 만들지는 못했습니다. 팩맨에 더 많은 노이즈를 주입할수록 유령이 무작위로 다른 사각형으로 순간이동할 가능성이 높아졌습니다.
실내 훈련 효과가 일반적인 팩맨 게임에서 발생하는지 확인하기 위해, 그들은 기본 확률을 조정하여 유령이 정상적으로 움직이지만 좌우가 아닌 위아래로 움직일 가능성이 더 높았습니다. 소음이 없는 환경에서 훈련된 AI 에이전트는 여전히 이러한 현실적인 게임에서 더 나은 성과를 보였습니다.
"그것은 우리가 임시 환경을 만들기 위해 노이즈를 추가하는 방식 때문만은 아니었습니다. 이것은 강화 학습 문제의 속성인 듯합니다. 그리고 그것은 보는 것이 훨씬 더 놀랍습니다." 보노가 말합니다.
탐험 설명
연구자들이 설명을 찾기 위해 더욱 깊이 파고들었을 때, 그들은 AI 에이전트가 훈련 공간을 탐색하는 방식에서 몇 가지 상관관계를 발견했습니다.
두 AI 에이전트가 대부분 동일한 영역을 탐험하는 경우, 소음이 없는 환경에서 훈련을 받은 에이전트가 더 나은 성과를 보입니다. 아마도 에이전트가 소음의 간섭 없이 게임 규칙을 더 쉽게 배울 수 있기 때문일 것입니다.
그들의 탐색 패턴이 다르다면, 노이즈가 있는 환경에서 훈련된 에이전트가 더 나은 성과를 내는 경향이 있습니다. 이는 에이전트가 노이즈가 없는 환경에서는 배울 수 없는 패턴을 이해해야 하기 때문에 발생할 수 있습니다.
보노는 "소음 없는 환경에서는 포핸드로만 테니스를 치고, 소음이 많은 환경에서는 백핸드로도 쳐야 한다면 소음이 없는 환경에서는 잘 치기 힘들 것"이라고 설명했습니다.
앞으로 연구자들은 실내 훈련 효과가 더 복잡한 강화 학습 환경이나 컴퓨터 비전 및 자연어 처리와 같은 다른 기술에서 어떻게 발생할 수 있는지 탐구하고자 합니다. 또한 실내 훈련 효과를 활용하도록 설계된 훈련 환경을 구축하고자 하는데, 이는 AI 에이전트가 불확실한 환경에서 더 나은 성과를 낼 수 있도록 도울 수 있습니다.
출처: https://www.sciencedaily.com/releases/2025/01/250129162714.htm
댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요