카테고리 없음

AI의 의학 도전 (9) NEJM case 평가를 통한 다중 모달 AI의 의료 진단

프로페서 H 2024. 10. 25. 08:11

1차 원고 작성: 2024-10-25

 

오늘은 "Evaluating multimodal AI in medical diagnostics"라는 논문에 대해 내용을 정리하고자 합니다. 이 연구는 다중 모달 AI 모델이 임상 진단에서 보이는 정확도와 반응성을 평가한 중요한 논문입니다.

 

출처: npj Digital Medicine (2024) 7: 205. https://doi.org/10.1038/s41591-024-02780-7

 

이 연구에서는 NEJM Image Challenge 질문에 대한 AI 모델의 응답을 인간 집단 지성과 비교하여 AI의 잠재력과 현재의 한계를 조명했습니다. 

 

이 연구의 주요 내용은 다음과 같습니다:

  • Anthropic의 Claude 3 모델이 가장 높은 정확도를 기록했으며, 이는 AI 모델이 진단 작업에서 인간을 어느 정도 능가할 수 있음을 시사합니다.
  • 그러나 집단적 인간 의사 결정은 여전히 모든 AI 모델보다 우수한 성과를 보였으며, AI의 한계를 명확히 보여주었습니다.
  • GPT-4 Vision Preview는 쉬운 문제에만 반응하는 성향이 있어, 진단에서의 신뢰성을 높이기 위한 개선이 필요합니다.

이 연구는 AI 모델이 임상 진단에 사용될 수 있는 잠재력을 보여주는 동시에, 여전히 많은 한계가 있음을 지적하고 있습니다. AI의 임상 적용을 위해서는 더 많은 연구와 개선이 필요하며, 특히 인간 의사와 협력하여 더 나은 진단 결과를 도출할 수 있는 방법을 찾아야 합니다.

 


다중 모달 AI의 의료 진단 활용: 가능성과 도전 과제

  • LLM의 도입과 평가 필요성: GPT-4와 같은 대형 언어 모델(LLM)의 다양한 분야에 대한 급속한 통합은 특히 의료 진단과 같은 특화된 작업에서 그들의 성능을 평가할 필요가 있습니다.
  • GPT-4V의 잠재력: 최근 연구에 따르면 GPT-4V와 유사한 모델들은 임상 환경에서 인간 전문가의 역량을 보완할 수 있는 잠재력을 가지고 있습니다. 
  • 신뢰성과 윤리적 문제: 그러나 이러한 기술 발전은 신뢰성 문제를 제기하며 윤리적 우려를 발생시킵니다. 다중 모달 기능의 등장은 단순한 텍스트 해석을 넘어 임상 질문과 이미지 해석에 대한 새로운 평가가 필요합니다.
  • 다중 모달 성능의 한계: 최근 영상의학에서 다중 모달 성능을 평가한 연구에서는 병리학적 이상 감지가 여전히 부정확하다는 결과를 보였습니다. 다만, 이 연구는 GPT-4V에 한정된 분석이었으며, 모든 다중 모달 LLM의 성능에 대한 일반적인 결론은 도출되지 않았습니다.
  • 진단 과정의 복잡성: NEJM 사례 연구에서 제시된 진단 과정은 단일 전문 분야의 방사선 해석보다 더 복잡하고 다양하며, 다양한 정보의 통합이 필요합니다.
  • 혼재된 연구 결과: 이전 연구에서는 대형 언어 모델의 진단 정확도에 대해 혼재된 결과를 보여주었습니다. 프롬프트 방식, 모델 종류, 전문 분야, 사용된 데이터셋에 따라 성능이 달라졌으며, 이로 인해 결과가 불안정해지는 한계가 있습니다.
  • 이미지 분석 기능의 도입: 이미지 분석 기능이 추가됨에 따라, 이러한 모델에 추가 정보를 제공하고 의료 사례를 더 현실적으로 표현할 수 있는 기회가 생겼습니다.

연구 방법

데이터 및 변수

  • 데이터는 New England Journal of Medicine (NEJM)의 이미지 챌린지에서 수집되었습니다. 이 웹 퀴즈는 매주 한 개의 의료 이미지를 기반으로 짧은 사례 설명(선택 사항), 관련 질문, 그리고 5개의 다중 선택형 질문을 포함합니다. 2023년 12월 7일까지 공개된 모든 이미지 사례(n=945)가 포함되었습니다.
  • 각 질문에 대해 제공된 옵션에 대한 투표 수도 확보하여 AI 모델의 성능을 인간 집단 지성과 비교할 수 있도록 했습니다.
  • 참여자의 투표 데이터로부터 두 가지 지표가 도출되었습니다:
    • 참여자 평균: 각 질문에 대해 정답을 맞춘 사람들의 평균 비율을 나타냅니다.
    • 참여자 다수결: 대부분의 참여자가 정답을 선택했는지 여부를 판단하여 집단 합의의 척도로 사용되었습니다.

멀티모달 모델 및 질문 프롬프트

  • 이번 연구에서는 9개의 멀티모달 AI 모델을 평가했습니다:
    • CogVLM Chat v1.1
    • LLaVA v1.5 13B
    • LLaVA v1.6 34B
    • InternVL-Chat-V1.5-Int8
    • OpenAI’s GPT-4 Vision Preview v1106
    • Google’s Gemini 1.0 Pro Vision
    • Anthropic’s Claude 3 Family (Opus, Haiku, Sonnet)
  • GPT-4 Vision Preview, Gemini 1.0 Pro Vision, Claude 3 모델은 회사의 파이썬 라이브러리를 통해 사용되었습니다. 오픈 모델의 가중치는 2024년 12월 18일 Hugging Face에서 다운로드되었으며, LLaVA v1.6 34B InternVL-Chat-V1.5-Int8은 각각 2024년 5월 12일 5월 19일에 접근했습니다.
  • 모든 모델에 대해 동일한 질문 템플릿이 사용되었습니다(아래 Box 1 참조).

Box 1: 모든 모델에 사용된 프롬프트 템플릿

Act as an expert physician and professor at a renowned university hospital. Your task is to answer medical questions, primarily based on descriptions of medical images. Use your expertise to interpret these descriptions accurately and provide the most likely diagnosis or answer. <OPTIONAL-CASE-DESCRIPTION > <CASE-QUESTION>

A) < OPTION-A>

B) < OPTION-B>

C) < OPTION-C>

D) < OPTION-D>

E) < OPTION-E>

Provide the answer to the multiple choice question in the format: <correct_letter > ) <correct_answer > . Include a brief explanation if possible to support the answer.

 

통계 분석

  • 분석은 Apple M1 Pro macOS 14.3.1 시스템에서 Python 3.10.12를 사용해 수행되었습니다.
  • 데이터 분석 및 시각화를 위해 Pandas(v1.5.3), Seaborn(v0.11.2), **Matplotlib(v3.7.2)**와 같은 파이썬 라이브러리를 사용하였습니다.

NEJM 이미지 챌린지 데이터셋

  • 참여도: NEJM Image Challenge는 2005년 10월 13일에 시작되어 2023년 12월 13일 기준으로 945개의 사례에 대해 8,500만 회 이상의 응답을 기록했습니다.
  • 평균 응답 수: 질문당 평균 응답 수는 90,679회(표준편차 32,921; 중간값 88,407; 범위 13,120–233,419)로 나타났습니다.
  • 정답률: 평균적으로 의료 사례에 대해 정답을 맞힌 비율 49.4%(표준편차 13.6%; 중간값 49%; 범위 16–88%)로, 문제의 난이도가 매우 다양함을 반영합니다.
  • 질문 길이: 질문의 길이는 4단어에서 128단어로 다양하며, 평균적으로 28.5단어로 임상 정보의 제공 범위가 넓습니다.
  • 이미지 해상도: 분석된 의료 이미지의 해상도는 0.57에서 5.95 메가픽셀까지 다양했으며, 평균적으로 2.02 메가픽셀로 나타나 AI 모델과 일반 대중이 해석할 수 있는 이미지의 세부 사항과 품질이 매우 다름을 시사합니다.

반응성

  • 응답률: Anthropic의 Claude 3 모델 계열을 포함한 모든 오픈 소스 모델은 모든 질문에 응답한 반면, GPT-4 Vision Preview는 전체 사례 중 76%(n = 718)만 응답했습니다. GPT-4 Vision Preview는 "의료 진단을 제공하거나 의료 이미지를 해석할 수 없습니다"라는 응답을 통해 일부 질문에 대한 응답을 거부했습니다.
  • 쉬운 질문에 대한 선호: GPT-4 Vision Preview는 참여자의 평균 정답률이 높은 쉬운 질문(p = 0.033)과 이미지 크기가 작은 질문(p < 0.001), 그리고 질문 텍스트가 긴 경우(p < 0.001)에 더 많이 응답하는 경향을 보였습니다.
  • Bard Gemini 1.0 Vision Pro 단 하나의 질문(0.11%)에만 응답하지 않았으며, 그 원인은 알려지지 않았습니다(“block_reason: OTHER”).

정확도

  • Anthropic 모델의 우수성: AI 모델 중에서는 Anthropic의 Claude 3 모델이 가장 높은 정확도를 기록했으며, **58.8%에서 59.8%**의 정확도를 보여줬습니다(n = 556 ~ 565/945). 이는 참여자 평균 정답률인 **49.4%**를 약 10% 초과하며, 통계적으로 유의미한 차이를 나타냈습니다(p < 0.001).
  • 집단적 인간 의사 결정: 다수결로 결정된 집단적 인간 의사 결정은 90.8%(n = 858)라는 매우 높은 정확도를 기록했으며, 모든 테스트된 다중 모달 AI 모델의 성능을 크게 초과했습니다(Fig. 2). 이 결과는 집단 지성의 의료 진단에서의 가능성을 보여줍니다.
  • 모델 다수결: 상위 네 개의 모델(Claude 3 계열과 GPT-4 1106 Vision Preview)을 포함한 모델 다수결 최고 성능을 보인 Claude 3 Haiku 모델에 비해 유의미한 개선을 보이지 않았습니다(p = 0.96).
  • Haiku 모델의 성능: Haiku는 Claude 3 계열에서 가장 작고 빠른 모델임에도 불구하고, 가장 큰 모델인 Opus보다 6개 더 많은 질문에 대해 정답을 맞췄습니다. 그러나 이 차이는 통계적으로 유의미하지 않았습니다(p = 0.8).

GPT-4V의 선택적 응답 특성

  • 제한적 응답: OpenAI의 GPT-4V 모델의 응답 선택성은 폐쇄형 AI 모델에 적용되는 제한적 조정 정책이 과학적 평가에 미치는 영향을 강조합니다. 특히, 임상 질문 대부분에 응답하면서도 일부 질문에는 응답하지 않는 행동은 이러한 제한 조치의 효과와 그 과학적 평가에 미치는 영향을 의문시하게 만듭니다.
  • 쉬운 질문에 대한 응답 경향: GPT-4V는 쉬운 질문, 작은 이미지가 포함된 질문, 그리고 긴 텍스트 설명을 포함한 질문에 더 많이 응답하는 경향이 있습니다.
  • 비응답 이유 명확화 필요: 투명성을 높이기 위해, 개발자는 특정 질문에 응답하지 않는 이유를 명확히 설명해야 합니다. 예를 들어, 부적절한 이미지 자료, 비식별화되지 않은 환자 사진의 프라이버시 문제, 혹은 단순히 모델이 잘못된 답변을 피하려는 목적으로 응답을 회피하는 상황일 수 있습니다.
  • 연구자용 계정 도입: 연구 목적으로 확장된 접근 권한을 제공하는 전문 연구자 계정을 도입하는 것은 제한된 모델 접근성을 완화하면서도 윤리적 및 보안 기준을 유지할 수 있는 좋은 방법이 될 수 있습니다.

이러한 관찰은 AI가 텍스트 기반 분석을 넘어서는 다중 모달 의료 환경에서 보이는 제한적 응답 잘못된 판단 가능성을 보여주며, AI가 몇몇 연구에서 인간 능력을 초과한 사례와는 상반된 결과를 나타냅니다.

AI의 의료 진단 능력

  • Claude 3 모델의 우수성: Anthropic의 Claude 3 모델은 GPT-4 Vision Preview보다 높은 정확도를 보였으며, 질문에 응답을 거부하지 않았습니다. 이는 Claude 3 모델의 더 나은 훈련 방법이 반영된 결과로 보입니다.
  • 범용 모델의 성공적인 적용: 연구에서는 범용 AI 모델이 매우 특정한 의료 지식 질문에 잘 대처하며, 참여자의 평균 정확도를 초과하는 성과를 보였습니다. 이 중에서 Claude 3 Haiku가 가장 높은 정확도를 기록했습니다.
  • 다중 모달 분석에서의 차이: 텍스트 전용 GPT-4는 38개의 사례를 기반으로 NEJM 사례에서 99.98%의 정확도로 인간 독자들을 능가한 바 있지만, GPT-4 Vision Preview를 사용한 이번 다중 모달 이미지 분석에서는 동일한 결과가 재현되지 않았습니다.
  • 집단 지성의 우수성: 집단적 인간 의사 결정은 90.8%의 정확도를 기록하며 모든 AI 모델의 성능을 뛰어넘었습니다. 이는 James Surowiecki 집단 지성 개념과 일치합니다.
  • 피부암 진단에서의 AI 성과: 최근 메타 분석에 따르면, AI가 피부암을 감지하는 정확도는 일반 의사를 크게 능가했으며, 경험이 많은 피부과 의사와 유사한 성능을 보였습니다. 다른 연구에서는 AI 모델을 통해 90% 이상의 정확도로 피부암을 진단할 수 있음을 발견했습니다.
  • 진단 작업에 대한 AI의 분석 능력: AI가 특정 진단 작업, 특히 피부암 감지와 같은 분야에서 매우 뛰어난 성능을 보이는 것으로 나타났으며, 이는 일반적인 다중 모달 분석에서 관찰된 성과를 초과합니다.
  • 자기 진단에 대한 안전성 문제: AI를 통한 의료 자기 진단을 방지하기 위한 안전 장치가 일관성 없는 실행으로 인해 불충분하다는 점이 밝혀졌습니다.

평가의 한계와 미래 연구 방향

  • 의료 특화 모델의 필요성: 이번 연구에서 평가된 다중 모달 모델들은 의료 작업을 위해 특화된 설계가 아니며, 성능은 유망하지만 특화된 대형 언어 모델(LLM)의 연구가 필요합니다. 범용 모델에서 강력한 전이 학습 성능이 입증되었지만, 의료 진단에 맞춘 모델의 세밀한 튜닝이 요구됩니다.
  • 임상 시험의 필요성: 다중 모달 AI의 임상 루틴에서의 능력을 검증하기 위해서는 임상 시험이 필수적입니다.
  • 투명성 부족 문제: 독점 모델 훈련 데이터셋 모델 구조가 비공개로 되어 있어, 안전성 평가가 충분하지 못한 상태입니다. 훈련 데이터에 대한 투명성 부족은 이 평가가 진정한 제로샷 시나리오인지에 대해 의문을 제기하며, 훈련 데이터에 이미지 또는 질문이 포함되었을 가능성을 시사합니다(데이터셋 오염 가능성).
  • 오픈 소스 모델의 장점: 반면, 오픈 소스 모델의 투명성은 더 견고한 안전성 평가를 가능하게 할 수 있습니다.
  • 실제 임상 환경의 복잡성: 다중 선택형 질문 형식 실제 임상 환경에서의 복잡성을 완전히 반영하지 못할 수 있습니다. 실제 임상에서는 진단이 사전에 정해진 선택지에 국한되지 않습니다.
  • 모델 구성에 따른 응답 차이: 단일 모델이 다양한 매개변수로 구성될 때 서로 다른 응답을 생성할 수 있습니다. 이번 연구에서는 모든 모델 기본 설정으로 사용하여 기본 성능을 평가했습니다.

결론 및 미래 전망

AI 모델이 빠르게 발전하면서 의료 진단에서 큰 잠재력을 보여주고 있으며, 특히 다중 모달 데이터셋을 포함한 새로운 응용 분야로 확장되고 있습니다. 그러나 연구 결과는 절제된 낙관론을 제시하며, 이러한 도구의 능력을 신중히 평가할 필요가 있음을 강조합니다. 환자 안전을 보장하기 위해 책임 있는 배포를 위한 견고한 프레임워크가 필수적입니다. AI의 의료 분야 미래 신뢰성 윤리적 적용을 향상시키기 위한 협력적인 노력에 달려 있으며, 인간 전문가를 대체하기보다는 보완하는 방향으로 나아가는 것이 목표입니다.

 

#AI진단 #다중모달AI #임상의사결정 #AI와인간협력 #의료AI