뇌가 결정을 내릴 때 위험과 보상의 균형을 잡는 방법

매일 우리의 뇌는 크고 작은 수천 가지의 결정을 내립니다. 레스토랑 선택과 같은 가장 중요하지 않은 결정부터 다른 직업을 추구하거나 새로운 도시로 이사하는 것과 같은 더 중요한 결정까지, 이러한 결정은 더 좋거나 더 나쁜 결과를 가져올 수 있습니다.

뇌 게이지는 이런 전화를 걸 때 위험과 보상을 어떻게 측정할까요? 이 질문에 대한 답은 과학자들을 계속 혼란스럽게 하지만, 하버드 의대와 하버드 대학의 연구자들이 수행한 새로운 연구는 흥미로운 단서를 제공합니다.

2월 19일 Nature 에 발표되고 연방 정부 자금 지원을 일부 받은 이 연구는 보상 기반 결정을 뒷받침하는 뇌 회로를 연구하기 위해 기계 학습 개념을 마우스 실험에 통합했습니다.

과학자들은 쥐에서 두 그룹의 뇌 세포를 발견했습니다. 하나는 쥐가 평균 이상의 결과에 대해 배우는 데 도움이 되는 세포이고 다른 하나는 평균 이하의 결과와 관련이 있습니다. 실험 결과, 이러한 세포는 뇌가 선택과 관련된 가능한 보상의 전체 범위를 측정할 수 있도록 해줍니다.

"저희 연구 결과에 따르면 쥐, 그리고 확장하여 다른 포유류도 저희가 생각했던 것보다 위험과 보상에 대해 더욱 세부적인 사항을 표현하는 것으로 나타났습니다." 하버드 의대 블라바트니크 연구소의 신경생물학 조교수이자 공동 수석 저자인 얀 드러고비치의 말입니다.

이번 연구 결과가 인간에게도 확인된다면, 인간의 뇌가 보상 기반의 결정을 내리는 방식과 보상 회로가 고장 났을 때 위험과 보상을 판단하는 능력에 어떤 일이 일어나는지 이해할 수 있는 기틀을 제공할 수 있습니다.

머신 러닝은 보상 기반 결정을 밝혀낸다

신경과학자들은 뇌가 과거 경험을 사용하여 새로운 결정을 내리는 방식에 오랫동안 관심을 가져왔습니다. 그러나 Drugowitsch에 따르면, 그러한 의사 결정에 대한 많은 전통적 이론은 실제 세계 행동의 복잡성과 미묘함을 포착하지 못합니다.

드러고비치는 레스토랑 선택의 예를 들었습니다. 안전하게 가고 싶은 기분이라면 경험상 확실히 맛있다는 것을 알려주는 메뉴를 제공하는 레스토랑을 선택할 수 있고, 위험을 감수하고 싶은 기분이라면 뛰어난 요리와 수준 이하의 요리가 섞여 있는 레스토랑을 선택할 수 있습니다.

위의 예에서 각 레스토랑이 제공하는 메뉴의 범위는 상당히 다르지만, 기존의 신경과학 이론에서는 평균적으로 두 레스토랑이 동등하다고 보고, 두 레스토랑을 선택할 가능성이 같다고 예측합니다.

"우리는 이것이 인간과 동물이 행동하는 방식이 아니라는 것을 알고 있습니다. 우리는 위험을 감수할 것인지 안전하게 행동할 것인지 결정할 수 있습니다."라고 Drugowitsch는 말했습니다. "우리는 우리의 선택과 관련된 평균적인 기대 보상 이상의 감각을 가지고 있습니다."

최근 몇 년 동안 머신 러닝 연구자들은 선택과 관련된 잠재적 보상의 전체 범위를 더 잘 포착하는 의사 결정 이론을 개발했습니다. 그들은 이 이론을 새로운 머신 러닝 알고리즘에 통합하여 Atari 비디오 게임과 각 결정에 여러 가지 가능한 결과가 있는 다양한 다른 작업에서 대체 알고리즘보다 성능이 우수했습니다.

"그들은 기본적으로 특정 행동에 대한 평균 보상만 학습하는 것이 아니라 알고리즘이 전체 분포를 학습하면 어떤 일이 일어날지 물었고, 성능이 상당히 향상되는 것을 발견했습니다."라고 Drugowitsch는 말했습니다.

2020년 Nature 논문 에서 하버드 대학교 분자 및 세포 생물학 교수인 나오시게 우치다와 동료들은 기존 데이터를 재분석하여 이 기계 학습 이론이 설치류 뇌의 의사 결정 맥락에서 신경 과학에 적용되는지 알아보았습니다. 분석 결과, 쥐에서 보상 추구, 쾌락 및 동기 부여에 역할을 하는 신경 전달 물질 도파민의 활동이 알고리즘이 예측한 보상 학습 신호와 일치했습니다.

즉, Drugowitsch는 이 연구가 새로운 알고리즘이 도파민 활동을 더 잘 설명한다는 것을 시사한다고 말했습니다.

마우스 뇌가 다양한 보상을 표현하는 방식

새로운 연구에서 Drugowitsch는 공동 수석 저자인 Uchida와 협력하여 연구를 한 단계 더 발전시켰습니다. 그들은 함께 쥐 실험을 설계하여 이 과정이 결정과 관련된 가능한 보상에 대한 정보를 저장하는 배측 선조체라는 뇌 영역에서 어떻게 진행되는지 확인했습니다.

"도파민 활동은 예상되는 보상에 대한 학습 신호만 제공하지만, 우리는 이러한 학습된 보상의 표현을 뇌에서 직접 찾고 싶었습니다."라고 Drugowitsch는 말했습니다.

연구자들은 쥐에게 다양한 냄새와 다양한 크기의 보상을 연관시키도록 훈련시켰습니다. 본질적으로 쥐에게 선택의 가능한 결과 범위를 가르쳤습니다. 그런 다음 쥐에게 냄새를 보여주고 핥는 행동(쥐가 더 나은 보상을 기대하며 더 많이 핥음)을 관찰하면서 복측 줄무늬체에서 신경 활동을 기록했습니다.

연구팀은 뇌에서 두 개의 뚜렷한 신경 세포 그룹을 발견했습니다. 하나는 생쥐가 예상보다 더 나은 결과에 대해 배우는 데 도움이 되는 그룹이고, 다른 하나는 예상보다 나쁜 결과와 관련된 그룹입니다.

"이것은 뇌 속에 낙관주의자와 비관주의자가 있어서 둘 다 당신에게 다음에 무엇을 해야 할지에 대한 조언을 주는 것과 같다고 생각할 수 있습니다."라고 Drugowitsch는 설명했습니다.

연구자들이 "낙관적인" 뉴런을 침묵시켰을 때, 쥐는 덜 매력적인 보상을 기대하는 듯한 행동을 보였습니다. 반대로, 연구자들이 "비관적인" 뉴런을 침묵시켰을 때, 쥐는 더 높은 가치의 간식을 기대하는 듯한 행동을 보였습니다.

Drugowitsch는 "이 두 그룹의 뇌 세포는 함께 작동하여 결정에 대한 잠재적 보상의 전체 분포를 나타내는 표현을 형성합니다."라고 말했습니다.

연구자들은 앞으로의 연구에 많은 방향을 제시할 것으로 보고 있는데, 여기에는 각 초기 옵션에 대한 불확실성이 더 클 때 뇌가 어떻게 결정을 내리는지, 그리고 연구 결과가 세상에 대한 보다 일반적인 추론에 어떻게 적용되는지에 대한 내용이 포함됩니다.

Drugowitsch는 인간에서의 결과를 확인하고 인간의 의사 결정의 복잡성에 맞게 결과를 조정하기 위해 더 많은 연구가 필요하다고 언급했습니다.

그러나 그는 쥐와 인간의 뇌 사이의 유사점을 바탕으로 이 연구가 인간이 의사 결정에서 위험을 어떻게 평가하는지, 그리고 우울증이나 중독과 같은 특정 질환이 있는 사람들이 왜 그러한 평가에 어려움을 겪는지에 대한 빛을 이미 비출 수 있다고 믿습니다.


출처: https://www.sciencedaily.com/releases/2025/02/250219111253.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요