AI가 작성한 방사선 보고서는 얼마나 좋은가요? 과학자들은 AI 생성 방사선 보고서의 정확성을 평가하는 새로운 방법을 설계합니다.

환자의 CT 스캔 또는 X-레이에 대한 자세한 내러티브 보고서를 빠르고 정확하게 생성하는 AI 도구는 바쁜 방사선 전문의의 작업량을 크게 완화할 수 있습니다.

이러한 AI 보고서는 단순히 이미지의 이상 유무를 식별하는 대신 복잡한 진단 정보, 자세한 설명, 미묘한 결과 및 적절한 불확실성 정도를 전달합니다. 요컨대, 그들은 인간 방사선 전문의가 스캔에서 본 것을 설명하는 방식을 반영합니다.

자세한 내러티브 보고서를 생성할 수 있는 여러 AI 모델이 현장에 나타나기 시작했습니다. 그들과 함께 이러한 도구를 주기적으로 평가하여 개발 정보를 제공하고 성능을 향상시키는 자동 채점 시스템이 등장했습니다.

그렇다면 현재 시스템은 AI 모델의 방사선과 성능을 얼마나 잘 측정합니까?

8월 3일 패턴스(Patterns) 저널에 발표된 하버드 의대 연구원들의 새로운 연구에 따르면 대답은 좋지만 좋지는 않습니다.

연구원들은 채점 시스템이 신뢰할 수 있는지 확인하는 것이 AI 도구가 지속적으로 개선되고 임상의가 이를 신뢰하는 데 중요하지만 연구에서 테스트한 메트릭은 AI 보고서에서 임상 오류를 안정적으로 식별하지 못했으며 그중 일부는 중요하다고 말했습니다. 연구원들은 이 발견이 개선의 시급한 필요성과 도구 성능을 충실하고 정확하게 모니터링하는 고충실도 채점 시스템 설계의 중요성을 강조한다고 말했습니다.

팀은 AI로 생성된 내러티브 보고서에서 다양한 채점 메트릭을 테스트했습니다. 연구원들은 또한 6명의 인간 방사선 전문의에게 AI가 생성한 보고서를 읽도록 요청했습니다.

분석 결과 인간 방사선 전문의와 비교할 때 자동 채점 시스템은 AI가 생성한 보고서를 평가하는 능력이 더 나빴습니다. 그들은 잘못 해석했고 어떤 경우에는 AI 도구로 인한 임상 오류를 간과했습니다.

“AI 시스템을 정확하게 평가하는 것은 임상적으로 유용하고 신뢰할 수 있는 방사선 보고서를 생성하기 위한 중요한 첫 번째 단계입니다.

점수 향상

더 나은 스코어링 지표를 설계하기 위해 팀은 의료 이미지에서 방사선 보고서를 자동으로 생성하는 AI 도구의 성능을 평가하기 위한 새로운 방법(RadGraph F1)을 설계했습니다.

또한 여러 메트릭을 인간 방사선 전문의가 AI 모델의 성능을 평가하는 방법과 더 잘 일치하는 단일 점수로 결합하는 복합 평가 도구(RadCliQ)를 설계했습니다.

연구원들은 이러한 새로운 채점 도구를 사용하여 여러 최첨단 AI 모델을 평가한 결과 모델의 실제 점수와 가능한 최고 점수 사이에 눈에 띄는 차이가 있음을 발견했습니다.

Rajpurkar 연구소의 연구원인 공동 제1저자인 Feiyang ‘Kathy’ Yu는 “의료 분야에서 AI를 다음 단계로 발전시키기 위해서는 진행 상황을 측정하는 것이 필수적입니다.”라고 말했습니다. “우리의 정량적 분석은 더 나은 환자 치료를 제공하기 위해 방사선 전문의를 강화하는 AI에 우리를 더 가깝게 만듭니다.”

장기적으로 연구자의 비전은 이전에 접한 적이 없는 문제를 해결하는 능력을 포함하여 다양한 복잡한 작업을 수행하는 일반 의료 AI 모델을 구축하는 것입니다. 이러한 시스템은 진단 및 치료 결정을 지원하기 위해 의료 이미지에 대해 방사선 전문의 및 의사와 유창하게 대화할 수 있다고 Rajpurkar는 말했습니다.

팀은 또한 일상적인 평이한 언어를 사용하여 환자에게 직접 이미징 결과를 설명하고 맥락화할 수 있는 AI 비서 개발을 목표로 합니다.

Rajpurkar는 “방사선 전문의와 더 잘 조율함으로써 우리의 새로운 지표는 환자 치료를 개선하기 위해 임상 워크플로에 원활하게 통합되는 AI 개발을 가속화할 것”이라고 말했습니다.

출처: https://www.sciencedaily.com/releases/2023/08/230804123729.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요