간단한 조작으로 AI가 속아 의료 윤리의 위험한 결함이 드러났습니다.
![]() |
| 한 연구에 따르면 AI는 의학 분야에서 윤리적 추론에 실패할 수 있으며, 익숙하지 않은 방식으로 제시되면 간단한 시나리오조차 잘못 해석할 수 있다고 합니다. 출처: Shutterstock |
이스라엘 라빈 의료 센터의 동료 및 기타 협력자들과 협력하여 마운트 시나이의 아이칸 의대의 연구자들이 실시한 연구에 따르면, 가장 진보된 인공지능(AI) 모델조차도 복잡한 의료 윤리 상황에 직면했을 때 놀라울 정도로 간단한 실수를 할 수 있다고 합니다.
ChatGPT와 같은 대규모 언어 모델(LLM)을 의료 환경에서 언제 어떻게 사용해야 하는지에 대한 중요한 질문을 제기하는 연구 결과는 NPJ Digital Medicine [10.1038/s41746-025-01792-y] 의 7월 22일 온라인 호에 보고되었습니다 .
연구팀은 빠르고 직관적인 반응과 느리고 분석적인 추론을 대조하는 대니얼 카너먼의 저서 "생각에 관한 생각(Thinking, Fast and Slow)"에서 영감을 얻었습니다. 전통적인 수평적 사고 퍼즐에 미묘한 변화를 주면 대규모 언어 모델(LLM)이 불안정해지는 것이 관찰되었습니다. 이러한 통찰을 바탕으로, 본 연구는 의도적으로 수정된 잘 알려진 윤리적 딜레마에 직면했을 때 AI 시스템이 두 가지 모드 사이를 얼마나 잘 전환하는지 검증했습니다.
"AI는 매우 강력하고 효율적일 수 있지만, 저희 연구에 따르면 AI는 중요한 세부 사항을 간과하더라도 가장 익숙하거나 직관적인 답변을 선택할 수 있습니다."라고 마운트 시나이 아이칸 의대 빈드라이히 인공지능 및 인간 건강학과 생성 AI 책임자이자 공동 선임 저자인 에얄 클랑 박사는 말합니다. "일상적인 상황에서는 그러한 생각이 간과될 수 있습니다. 하지만 의료 분야에서는 의사 결정이 심각한 윤리적, 임상적 영향을 미치는 경우가 많기 때문에 이러한 미묘한 차이를 간과하는 것은 환자에게 실질적인 결과를 초래할 수 있습니다."
이러한 경향을 탐구하기 위해 연구팀은 창의적인 수평적 사고 퍼즐과 잘 알려진 의료 윤리 사례를 약간 변형하여 여러 상용 LLM을 테스트했습니다. 한 예로, 연구팀은 1970년대에 널리 인용된 퍼즐이자 암묵적인 성 편견을 강조하는 고전적인 "외과의의 딜레마"를 변형했습니다. 원래 버전에서는 한 소년이 아버지와 함께 교통사고를 당해 병원으로 이송되고, 외과의는 "이 아이는 수술할 수 없어. 내 아들이잖아!"라고 외칩니다.
반전은 외과의가 소년의 어머니라는 점인데, 많은 사람들이 성 편견 때문에 이러한 가능성을 고려하지 않는다는 것입니다. 연구진이 수정한 버전에서는 소년의 아버지가 외과의라고 명시적으로 명시하여 모호성을 제거했습니다. 그럼에도 불구하고 일부 AI 모델은 여전히 외과의가 소년의 어머니여야 한다고 응답했습니다. 이 오류는 LLM이 새로운 정보와 상반되는 상황에서도 익숙한 패턴에 집착할 수 있음을 보여줍니다.
LLM이 익숙한 패턴에 의존하는지 시험하기 위한 또 다른 사례에서, 연구진은 종교적인 부모가 자녀의 생명을 구하는 수혈을 거부하는 고전적인 윤리적 딜레마를 활용했습니다. 연구진이 부모가 이미 동의했다고 가정하여 시나리오를 변경했을 때에도, 많은 모델은 더 이상 존재하지 않는 거부를 무효화하는 것을 여전히 권장했습니다.
"이번 연구 결과는 AI가 의료 현장에서 설 자리가 없다는 것을 시사하는 것은 아니지만, 특히 윤리적 민감성, 섬세한 판단력, 또는 감성 지능이 필요한 상황에서는 사려 깊은 인간의 감독이 필요함을 강조합니다."라고 공동 선임 교신저자인 기리쉬 N. 나드카르니(Girish N. Nadkarni, MD, MPH)는 말했습니다. 그는 빈드라이히 인공지능 및 인간 건강과 학과장이자 하소 플래트너 디지털 건강 연구소 소장, 마운트 시나이 아이칸 의대 아이린 & 아서 M. 피시버그 박사 겸 마운트 시나이 의료 시스템 최고 AI 책임자입니다.
"물론 이러한 도구는 매우 유용할 수 있지만, 완벽하지는 않습니다. 의사와 환자 모두 AI는 임상 전문성을 대체하는 것이 아니라, 보완하는 데 가장 효과적이라는 점을 이해해야 합니다. 특히 복잡하거나 중대한 결정을 내릴 때 더욱 그렇습니다. 궁극적으로는 AI를 환자 치료에 통합할 수 있는 더욱 신뢰할 수 있고 윤리적으로 타당한 방법을 구축하는 것이 목표입니다."
"익숙한 사례에 대한 간단한 수정만으로도 임상의들이 감당할 수 없는 사각지대가 드러났습니다."라고 라빈 메디컬 센터 다비도프 암센터 혈액학 연구소 펠로우이자 이 연구의 주저자인 셸리 소퍼 박사는 말합니다. "이는 환자 치료에 AI를 도입할 때 인간의 감독이 왜 핵심적인 역할을 해야 하는지를 보여줍니다."
연구팀은 앞으로 더 다양한 임상 사례를 테스트하여 연구 범위를 확장할 계획입니다. 또한 다양한 모델이 실제 의료 환경의 복잡성을 얼마나 잘 처리하는지 체계적으로 평가하기 위한 "AI 보증 랩"을 개발하고 있습니다.
논문의 제목은 "의료 윤리 추론에서 대규모 언어 모델의 함정"입니다.
저널에 실린 이 연구의 저자는 셸리 소퍼 박사, 베라 소린 박사, 기리쉬 N. 나드카르니 박사, MPH, 에얄 클랑 박사입니다.
마운트 시나이 빈드라이히 AI 및 인간 건강 부서 소개
AI를 의료에 안전하고 효과적이며 윤리적으로 사용하는 데 대한 국제적 권위자인 기리쉬 N. 나드카르니(Girish N. Nadkarni, MD, MPH) 박사가 이끄는 마운트 시나이 대학의 윈드라이히 AI 및 인간 건강과는 미국 의과대학 최초로 인공지능과 인간 건강의 교차점에서 혁신적인 발전을 선도하고 있습니다.
본 부서는 책임 있고, 효과적이며, 윤리적이고, 안전한 방식으로 AI를 활용하여 연구, 임상 치료, 교육 및 운영을 혁신하고자 최선을 다하고 있습니다. 세계적 수준의 AI 전문 지식, 최첨단 인프라, 그리고 탁월한 연산 능력을 결합하여, 본 부서는 다중 규모, 다중 모드 데이터 통합 분야에서 획기적인 발전을 이루는 동시에 신속한 테스트 및 실무 적용을 위한 경로를 간소화하고 있습니다.
이 부서는 마운트 시나이 전역에서 활발한 협업을 통해 혜택을 얻고 있는데, 여기에는 독일 포츠담에 있는 하소 플래트너 디지털 엔지니어링 연구소와 마운트 시나이 의료 시스템의 협력이 포함됩니다. 이를 통해 환자 치료와 건강 결과를 개선하기 위한 데이터 중심 접근 방식을 발전시켜 부서의 사명을 보완합니다.
이러한 혁신의 중심에는 학습과 협업의 중심 허브 역할을 하는 마운트 시나이의 명문 아이칸 의과대학이 있습니다. 이러한 독특한 통합은 연구소, 학과, 병원, 외래 센터 간의 역동적인 파트너십을 가능하게 하여 질병 예방의 진전을 촉진하고, 복잡한 질병의 치료법을 개선하며, 전 세계적으로 삶의 질을 향상시킵니다.
2024년, 마운트 시나이 헬스 시스템(Mount Sinai Health System)의 임상 데이터 과학팀이 학과 교수진과 협력하여 개발한 혁신적인 NutriScan AI 애플리케이션으로 마운트 시나이 헬스 시스템은 권위 있는 허스트 헬스 상(Hearst Health Prize)을 수상했습니다. NutriScan은 입원 환자의 영양실조 진단 및 치료를 더욱 신속하게 하도록 설계되었습니다. 이 머신러닝 도구는 영양실조 진단율과 자원 활용도를 향상시켜 의료 분야에서 AI의 영향력 있는 적용을 입증합니다.
* Mount Sinai Health System 회원 병원: Mount Sinai Hospital, Mount Sinai Brooklyn, Mount Sinai Morningside, Mount Sinai Queens, Mount Sinai South Nassau, Mount Sinai West, New York Eye and Ear Infirmary of Mount Sinai
출처: https://www.sciencedaily.com/releases/2025/07/250723045711.htm


댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요