의학

AI의 의학도전 (12) - 대규모 언어 모델의 이점과 한계: 혈액학 분야에서의 활용

프로페서 H 2024. 11. 22. 11:59

 

1차 원고 작성: 2024.11.22

참고문헌: https://onlinelibrary.wiley.com/doi/10.1111/bjh.19738

Exploring the role of Large Language Models in haematology: A focused review of applications, benefits and limitations. 

대규모 언어 모델(LLMs)의 이점과 한계: 혈액학 분야에서의 활용

일관성

대규모 언어 모델의 일관성에 대한 평가는 연구마다 상이합니다.
Kurstjens et al.은 ChatGPT가 동일한 답변을 80%의 확률로 선택해 일관성이 부족한 모델로 평가되었으나, GPT-4는 98.3%의 확률로 동일한 답변을 선택해 매우 일관성이 높은 모델로 평가되었습니다(27). 반면, Hurley et al.은 Bard, GPT-3.5, GPT-4가 각각 87%, 99%, 97%의 확률로 동일한 답변을 제공하며 일관성이 높은 모델로 평가하였습니다(25). 이러한 차이는 모델 출력의 신뢰성에 대한 논쟁을 보여줍니다.


참고 문헌의 문제

일부 연구에서는 대규모 언어 모델이 사용하는 참고 문헌의 문제를 지적하였습니다.

  • Liu et al.은 GPT-3.5가 제공한 일부 참고 문헌이 가짜, 오래된 또는 오류가 포함된 자료였다고 보고하였습니다(23).
  • Civettini et al.은 Llama-2와 GPT-4가 경우에 따라 참고 문헌을 제공하지 못한다고 지적하였습니다(30).
  • Duey et al.은 GPT-4가 응답에서 명시적으로 출처를 인용하지 않음으로써 문제적 참고 문헌 노출을 피한다고 보고하였습니다(28).
    반면, Stephens et al.의 연구에서는 Bing Chat이 적절한 참고 문헌을 제공한 것으로 확인되었습니다(29).

데이터 업데이트의 한계

대규모 언어 모델은 방대한 훈련 데이터가 충분히 업데이트되지 않음으로 인해 성능 저하를 겪을 수 있습니다.
Klang et al.은 GPT-3.5가 최신 데이터로 충분히 학습되지 않았다고 지적하였고(26), Duey et al.은 GPT-3.5와 GPT-4 모두 이와 같은 한계를 가진다고 보고하였습니다(28). Wyngaert et al.은 이러한 문제가 ChatGPT의 성능에 영향을 미칠 수 있다고 언급하였습니다(24).


데이터 신뢰성 문제

대규모 언어 모델의 데이터 출처가 적합하지 않을 가능성도 제기되었습니다.
Duey et al.은 GPT-3.5와 PaLm2가 부적합한 출처에서 정보를 도출해 부정확한 결과를 제공할 수 있다고 지적하였습니다(28). 예를 들어, PaLm2는 급성 골수성 백혈병(AML)과 관련된 질문뿐 아니라 급성 림프구성 백혈병(ALL)에도 동일한 UpToDate 정보를 사용하였습니다(30).


부정확한 답변

여러 연구에서는 대규모 언어 모델의 일부 응답이 충분히 정확하지 않다고 평가하였습니다.

  • Hurley et al.은 LLM이 부적합한 약물을 권장한 사례를 보고하였습니다(25).
  • Klang et al.은 GPT 모델이 충분한 증거가 없는 상황에서도 권장 사항을 제공한다고 지적하였습니다(26).
    반면, Chen et al.은 GPT의 응답이 신뢰할 만하며 학술적 출처를 기반으로 한다고 평가하였습니다(22).

진단검사의학 데이터 해석의 문제

ChatGPT는 검사 데이터를 다룰 때 해석 오류를 범할 가능성이 있습니다.
Kurstjens et al.은 ChatGPT가 nmol/L로 표현된 헤모글로빈 수치를 g/dL로 잘못 해석하였다고 보고하였습니다(27).


주요 강점

대규모 언어 모델의 강점으로는 상세하고 구체적인 응답 제공이 꼽힙니다.
Chen et al.은 LLM의 응답이 일상적인 언어로 작성되어 이해하기 쉽다고 평가하였고(22), Duey et al.은 GPT 모델이 전문가의 조언을 권장하는 면책 조항을 포함한 점을 긍정적으로 평가하였습니다(28).

 

참고문헌

 

 

22. Chen L, Li H, Su Y, Yang Z, He Z, Wang D, et al. Using a Google web search analysis to assess the utility of ChatGPT in stem cell therapy. Stem Cells Transl Med. 2024; 13(1): 60–68. https://doi.org/10.1093/stcltm/szad074

23. Liu HY, Alessandri Bonetti M, De Lorenzi F, Gimbel ML, Nguyen VT, Egro FM. Consulting the digital doctor: Google versus ChatGPT as sources of information on breast implant-associated anaplastic large cell lymphoma and breast implant illness. Aesth Plast Surg. 2024; 48(4): 590–607. https://doi.org/10.1007/s00266-023-03713-4

24. Van de Wyngaert C, Iarossi M, Hermans C. How good does ChatGPT answer frequently asked questions about haemophilia? Haemophilia. 2023; 29(6): 1646–1648. https://doi.org/10.1111/hae.14858

25. Hurley NC, Schroeder KM, Hess AS. Would doctors dream of electric blood bankers? Large language model-based artificial intelligence performs well in many aspects of transfusion medicine. Transfusion (Paris). 2023; 63(10): 1833–1840. https://doi.org/10.1111/trf.17526

26. Klang E, Levy-Mendelovich S. Evaluation of OpenAI's large language model as a new tool for writing papers in the field of thrombosis and hemostasis. J Thromb Haemost. 2023; 21(4): 1055–1058. https://doi.org/10.1016/j.jtha.2023.01.011

27. Kurstjens S, Schipper A, Krabbe J, Kusters R. Predicting hemoglobinopathies using ChatGPT. Clin Chem Lab Med. 2024; 62(3): e59–e61. https://doi.org/10.1515/cclm-2023-0885

28. Duey AH, Nietsch KS, Zaidat B, Ren R, Ndjonko LCM, Shrestha N, et al. Thromboembolic prophylaxis in spine surgery: an analysis of ChatGPT recommendations. Spine J. 2023; 23(11): 1684–1691. https://doi.org/10.1016/j.spinee.2023.07.015

29. Stephens LD, Jacobs JW, Adkins BD, Booth GS. Battle of the (chat)bots: comparing large language models to practice guidelines for transfusion-associated graft-versus-host disease prevention. Transfus Med Rev. 2023; 37(3): 150753. https://doi.org/10.1016/j.tmrv.2023.150753

30. Civettini I, Zappaterra A, Granelli BM, Rindone G, Aroldi A, Bonfanti S, et al. Evaluating the performance of large language models in haematopoietic stem cell transplantation decision-making. Br J Haematol. 2024; 204(4): 1523–1528. https://doi.org/10.1111/bjh.19200