챗봇은 직접 연구에서 임상 추론에서 의사를 능가했습니다.

인간과 유사한 텍스트를 이해하고 생성하도록 설계된 인공지능 프로그램인 ChatGPT-4는 의료 데이터 처리 및 임상 추론 시연에서 두 대학 의료 센터의 내과 전공의와 주치의를 능가했습니다. 에 발표된 연구서한에서 JAMA 내과Beth Israel Deaconess Medical Center(BIDMC)의 의사-과학자들은 의사를 평가하기 위해 개발된 표준을 사용하여 LLM(대형 언어 모델) 추론 능력을 인간 성과와 직접 비교했습니다.

“LLM이 진단을 내릴 수 있다는 것은 아주 일찍부터 분명해졌지만 의학을 실천하는 사람이라면 누구나 의학에 그 이상의 것이 있다는 것을 알고 있습니다”라고 BIDMC 의학부 조사관이자 내과 의사인 Adam Rodman MD는 말했습니다. “진단 뒤에는 여러 단계가 있으므로 우리는 LLM이 그러한 종류의 임상 추론을 수행하는 데 의사만큼 뛰어난지 평가하고 싶었습니다. 이러한 것들이 진화 과정에서 인간과 동등하거나 더 나은 추론을 보여줄 수 있다는 것은 놀라운 발견입니다. 임상 사례 중.”

Rodman과 동료들은 개정된 IDEA(r-IDEA) 점수라고 불리는 의사의 임상 추론을 평가하기 위해 개발된 이전에 검증된 도구를 사용했습니다. 조사관은 21명의 주치의와 18명의 레지던트를 모집하여 각각 진단 추론의 4단계 순차적으로 구성된 20개의 선택된 임상 사례 중 하나를 통해 작업했습니다. 저자는 의사들에게 각 단계에서 감별 진단을 작성하고 정당화하도록 지시했습니다. 챗봇 GPT-4에는 동일한 지침이 포함된 프롬프트가 제공되었으며 20개의 임상 사례를 모두 실행했습니다. 그런 다음 그들의 답변은 임상 추론(r-IDEA 점수) 및 기타 여러 추론 척도에 대해 점수가 매겨졌습니다.

BIDMC 내과 레지던트 3년차이자 주 저자인 스테파니 카브랄(Stephanie Cabral) 박사는 “첫 번째 단계는 환자가 자신을 괴롭히는 것이 무엇인지 알려주고 활력 징후를 얻는 분류 데이터입니다.”라고 말했습니다. “두 번째 단계는 환자로부터 추가 정보를 얻는 시스템 검토입니다. 세 번째 단계는 신체 검사이고 네 번째 단계는 진단 테스트 및 영상 촬영입니다.”

Rodman, Cabral 및 동료들은 챗봇이 LLM의 경우 10점 만점에 10점, 주치의의 경우 9점, 레지던트의 경우 8점으로 가장 높은 r-IDEA 점수를 획득한 것으로 나타났습니다. 진단 정확도(제공한 진단 목록에서 올바른 진단이 얼마나 높은지)와 올바른 임상 추론에 관해서는 인간과 봇 사이의 무승부가 더 컸습니다. 그러나 봇은 또한 “단순히 틀렸다”는 사실을 발견했습니다. 답변에서 잘못된 추론 사례가 더 많았으며, 거주자보다 훨씬 더 자주 발견되었습니다. 이번 연구 결과는 AI가 인간의 추론 과정을 대체하는 것이 아니라 강화하는 도구로서 가장 유용할 것이라는 개념을 강조합니다.

Cabral은 “LLM이 어떻게 임상 실무에 가장 잘 통합될 수 있는지 결정하기 위해서는 추가 연구가 필요하지만 지금도 LLM은 우리가 뭔가를 놓치지 않도록 확인하는 데 도움이 되는 체크포인트로 유용할 수 있습니다”라고 말했습니다. “나의 궁극적인 희망은 AI가 현재 우리가 겪고 있는 비효율성을 일부 줄여 환자와 의사의 상호작용을 개선하고 환자와의 대화에 더 집중할 수 있게 해주는 것입니다.

로드먼은 “초기 연구에서는 모든 정보가 AI에 전달되면 AI가 진단을 내릴 수 있다고 제안했다”고 말했다. “우리 연구에서 보여주는 것은 AI가 프로세스의 여러 단계를 통해 실제 추론, 즉 인간보다 더 나은 추론을 보여준다는 것입니다. 우리는 환자를 위한 의료 서비스의 질과 경험을 향상시킬 수 있는 독특한 기회를 가지고 있습니다.”

공동 저자로는 BIDMC의 Zahir Kanjee, MD, Philip Wilson, MD 및 Byron Crowe, MD가 있습니다. 매사추세츠 종합병원의 Daniel Restrepo 박사; 브리검 여성병원의 Raja-Elie Abdulnour 박사.

이 작업은 Harvard Catalyst | 하버드 임상 및 중개 과학 센터(국립 보건원, 국립 중개 과학 발전 센터)(수상 UM1TR004408) 및 하버드 대학교 및 부속 학술 의료 센터의 재정적 기부.

잠재적인 이해 상충: Rodman은 Gordon and Betty Moore 재단의 보조금 지원을 보고합니다. Crowe는 Solera Health의 고용 및 형평성을 보고합니다. Kanjee는 편집된 도서에 대한 로열티 수령과 Wolters Kluwer의 AI와 관련되지 않은 의학 교육 제품에 대한 유료 자문위원회 회원 자격과 Oakstone Publishing에서 제공한 지속적인 의학 교육에 대한 명예를 보고합니다. Abdulnour는 NEJM Healer를 소유한 비영리 단체인 Massachusetts Medical Society(MMS)에 채용되었다고 보고합니다. Abdulnour는 NEJM Healer의 판매로 인해 로열티를 받지 않으며 NEJM Healer에 대한 지분을 보유하지 않습니다. 이 연구를 위해 MMS는 자금을 제공하지 않았습니다. Abdulnour는 미국 국립의학아카데미(National Academy of Medicine Scholars in Diagnostic Excellence)를 통해 Gordan 및 Betty Moore 재단의 자금 지원을 보고했습니다.

출처: https://www.sciencedaily.com/releases/2024/04/240401142448.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요