생물.컴퓨터.통계

AI의 의학 도전: RAG 모델로 생물의학 질문에 답하다(2)-hepatology

프로페서 H 2024. 8. 25. 13:46

 

1차 원고 작성: 2024-08-25

 

오늘은 "Optimization of hepatological clinical guidelines interpretation by large language models: a retrieval augmented generation-based framework"에 대해 내용을 정리하고자 합니다. 이 연구는 대규모 언어 모델(LLM)을 활용하여 간질환 임상 가이드라인의 해석을 최적화하는 프레임워크를 개발한 중요한 논문입니다.

 

출처: NPJ Digital Medicine (2024) 7(1): 102. https://doi.org/10.1038/s41746-024-01091-y

 

대규모 언어 모델(LLM)은 의료 분야에서 적시에 적절한 정보를 제공함으로써 의료 서비스를 혁신할 잠재력을 가지고 있습니다. 그러나 의료 가이드라인의 정확한 해석과 적용은 여전히 과제로 남아있습니다. 이 연구에서는 만성 C형 간염 바이러스 감염 관리를 위한 임상 의사결정 지원 시스템(CDSS)을 개선하기 위해 LLM을 통합하는 방법을 탐구했습니다.

이 연구에서는 다음과 같은 주요 내용을 다룹니다:

  1. OpenAI의 GPT-4 Turbo 모델을 기반으로 검색 증강 생성(RAG) 및 프롬프트 엔지니어링을 포함하는 맞춤형 LLM 프레임워크 개발
  2. LLM이 가장 정확한 출력을 제공할 수 있도록 가이드라인을 최적의 구조화된 형식으로 변환하는 방법 탐구
  3. 다양한 형식 지정 및 학습 전략이 LLM의 답변 생성 정확도에 미치는 영향을 평가하기 위한 ablation 연구 수행
  4. 기본 GPT-4 Turbo 모델의 성능을 5가지 실험 설정(in-context 가이드라인 포함, 가이드라인 재형식화, few-shot 학습 구현)과 비교 분석

서론

 

  • 의료에서 LLMs 적용의 주요 우려: 잘못된 응답(예: "환각")으로 인한 환자 피해 가능성이 있습니다. 임상 응용에서 LLMs를 활용하기 위한 제안된 프레임워크는 정직함, 유용함, 무해함(Honesty, Helpfulness, and Harmlessness; HHH 원칙)의 세 가지 원칙에 따라야 합니다.
  • 정보 검색 강화(RAG)와 감독된 미세 조정(SFT): RAG 및 SFT(supervised fine-tuning)는 특정 도메인 지식 세트, 예를 들어 의료 지침에 따라 출력 생성을 안내합니다. 그러나 의료 지침의 형식은 다양하며(예: 일반 구조, 권장 사항 위치, 표 형식 및 흐름도), 적절한 정보 해석 또는 검색에 영향을 줄 수 있습니다.
  • 만성 질환 관리의 문맥에서 LLMs 통합의 도전: 특히 만성 C형 간염(HCV) 관리의 맥락에서 의료 지침의 정확한 해석을 보장하는 도전이 중요합니다. 새로운 항바이러스 치료는 질병을 성공적으로 박멸하며, 여러 치료 체계는 90% 이상의 효능과 효과를 입증했습니다. HCV 관리는 사용 가능한 무작위 대조 시험 결과를 요약하여 만성 HCV 진단 및 치료에 대한 최선의 관행을 권장하는 여러 지침에 의해 규정되어 있습니다. 그러나 HCV 선별 및 관리에 대한 지침 준수율은 36-54%에 불과합니다. 세계 보건기구가 2030년까지 C형 간염을 퇴치하겠다는 목표를 고려할 때, 지침에 권장된 치료를 제공하고 준수 격차를 해소할 수 있는 확장 가능하고 신뢰할 수 있는 솔루션이 필요합니다.
  • 새로운 LLM 프레임워크 소개: 임상 지침과 RAG, 프롬프트 엔지니어링, 텍스트 재포맷 전략을 통합하여 증강된 텍스트 해석을 제공하는 새로운 LLM 프레임워크를 제시합니다. 이는 기준 LLM 모델을 크게 능가하여 정확한 지침 특정 권장 사항을 생성하며, 주요 결과는 수동 전문가 검토를 기반으로 정확성을 정성적으로 측정합니다. 또한, LLM 출력과 전문가 생성 응답의 유사성을 비교하기 위해 양적 텍스트 유사성 방법을 적용합니다.

결과

 

  • 맞춤형 LLM 프레임워크의 성과:
    • 전체 정확도: 99.0% (기본 GPT-4 Turbo의 43.0%에서 큰 향상)
    • 통계적으로 유의미한 개선: p < 0.001
  • 단계별 정확도 향상:
    • 맥락 내 가이드라인 포함: 43.0% → 67.0% (p = 0.001)
    • 가이드라인 정리 및 표 변환: 67.0% → 78.0% (p < 0.001)
    • 일관된 구조로 포맷팅: 78.0% → 90.0% (p < 0.001)
    • 맞춤형 프롬프트 엔지니어링: 90.0% → 99.0% (p < 0.001)
  • 질문 유형별 정확도:
    • 텍스트 기반 질문: 100% (기존 62.0%에서 향상, p < 0.001)
    • 표 기반 질문: 96.0% (기존 28.0%에서 향상, p < 0.001)
    • 임상 시나리오: 100% (기존 20.0%에서 향상, p < 0.001)
  • 환각(Hallucination) 분석:
    • 사실 충돌 환각(FCH): 전체 환각의 90.3%
    • 입력 충돌 환각(ICH): 전체 환각의 9.7%
    • 맥락 충돌 환각(CCH): 발견되지 않음
  • 주요 시사점:
    • 구조화된 가이드라인 재포맷팅의 중요성
    • 고급 프롬프트 엔지니어링의 효과
    • 데이터 품질이 데이터 양보다 중요함
  • 추가 연구 필요성:
    • Few-shot 학습의 효과 검증
    • 다양한 의료 분야에서의 적용 가능성 탐구

 

토의

 

  • LLM의 CDSS 통합: LLM을 임상 의사 결정 지원 시스템(CDSS)에 통합하면 임상 문서를 해석하고 현재의 의학 연구 및 최선의 관행과 LLM 생성 권장 사항을 조정하여 의료 전달을 혁신할 수 있습니다. 예를 들어, 로컬로 호스팅된 LLM은 환자 특정 데이터에 접근하여 특정 환자에게 가장 적합한 치료 계획을 식별하기 위해 맞춤형 프롬프트로 통합될 수 있습니다. LLM은 지침에 대한 최신 접근을 통해 치료에 대한 권장 사항을 제공할 것입니다. 
  • 제안된 프레임워크의 성능 시연: 연구자들은 만성 C형 간염을 관리하는 의사들이 물을 수 있는 잠재적 질문의 일부분에서 제안된 프레임워크의 성능을 시연했습니다. LLM 친화적인 임상 지침을 위한 최적의 프레임워크를 식별하여 거의 완벽한 정확성을 달성하고 단독으로 사용한 GPT-4 Turbo보다 HCV 감염 관리에 대한 질문에 대한 답변에서 더 뛰어난 성능을 보였습니다. 기본 GPT-4 Turbo는 단지 43.0%의 전반적인 정확성을 보였습니다.
  • 표 파싱의 어려움: LLM이 표를 텍스트 기반 목록으로 변환한 후 성능이 크게 향상되었음을 시사하는 결과, LLM은 비텍스트 소스에서 정보를 정확하게 검색할 수 없습니다. 표를 파싱하는 데 어려움은 알려진 한계이며, 의학 문헌에는 임상의사에게 중요한 정보를 포함하는 표가 자주 포함되어 있기 때문에 해결해야 할 중요한 기술적 문제입니다.
  • GPT-4의 multi-modal 기능: GPT-4는 그래픽 및 시각적 요소를 포함하여 이미지와 텍스트 요소로부터 입력을 해석할 수 있는 multi-modal 기능을 가지고 있습니다. 그러나 GPT-4가 HCV 지침에서 보고된 비텍스트 소스를 해석할 수 없다는 것을 보여줍니다. 그래픽 요소의 해석 오류는 LLM에 읽을 수 있는 형식으로 비텍스트 소스를 변환할 때 중요한 정보와 맥락의 손실을 초래할 수 있습니다.
  • 지침의 텍스트 표현: 이 결과는 지침에 있는 정보가 효율적이고 정확하게 검색되고 해석되기 위해 텍스트(즉, LLM 친화적인 형식)로 표현되어야 함을 시사합니다. 이는 LLM이 보다 정확한 정보 해석과 추론을 수행하는 데 도움이 될 것입니다.

LLM 평가 메트릭 및 퓨샷 학습에 대한 논의

  • 메트릭 한계: 이 연구는 BLEU, ROUGE-L, METEOR, 그리고 맞춤형 OpenAI 점수와 같은 전통적 유사도 점수가 전문가의 질적 정확도와 반드시 일치하지 않는다는 것을 밝혔습니다. 통계 분석은 인-콘텍스트 가이드라인 실험의 결과와 기준선 출력을 비교했을 때 모든 메트릭에서 유의한 차이를 보여주었습니다. 그러나 이러한 메트릭의 변화와 전문가의 질적 정확도 사이에는 명확한 상관관계가 관찰되지 않았습니다. 이 메트릭들은 원래 어휘 유사성, 문장 구조 및 의미적 일관성을 측정하기 위해 설계되었지만, 임상 질문에 있어 가장 중요한 것은 사실적 정확성입니다. 이는 현재 응답이 참조 답변과 어휘적으로 유사하게 보일 수 있지만, 필요한 사실 정보를 포착하지 못해 잘못된 정보를 제공하는 것(거짓 긍정)이나 정확한 응답이 참조와 다르게 표현되어 저평가되는 경우(거짓 부정)에 높은 점수를 받을 수 있다는 것을 의미합니다. 이러한 메트릭은 평가의 특정 측면에는 유용할 수 있지만, LLM이 제공하는 답변의 의학적 관련성, 완성도 및 맥락적 정확성의 미묘한 차이를 포착하지 못하는 한계를 드러냅니다. 이러한 제한은 전문가의 지속적인 감독이 필요함을 강조하며(즉, 인간 참여), LLM이 생성한 응답의 자동 평가는 여전히 해결되지 않은 문제입니다.
  • 퓨샷 few-shot  학습의 효과: 연구 결과, 퓨샷few-shot  학습이 인-콘텍스트 학습, 텍스트 포맷팅, 표 변환 및 프롬프트 엔지니어링을 넘어서 성능을 향상시키지 못했다는 것을 발견했습니다. 이는 모델의 제로샷 zero-shot 질의 기능이 이미 강력하여 퓨샷 전략이 필요하지 않다는 것을 시사합니다. 

방법

가이드라인 선택

  • 분석: 현재 북미 및 유럽의 주요 간학회에서 발표한 C형 간염(HCV)에 관한 가이드라인을 분석.
  • 선택: 이 중에서도 유럽간학회(European Association for the Study of the Liver, EASL)의 'C형 간염 치료에 관한 EASL 권장사항: 시리즈의 최종 업데이트' 2020년판을 선택하여 프레임워크를 탐구.
  • 복잡성: 선택된 가이드라인은 검진 및 관리에 관한 광범위한 권장사항을 담고 있는 가장 복잡한 텍스트 코퍼스를 포함하고 있으며, 북미 가이드라인에서는 보고되지 않은 약물 상호 작용에 관한 심층 정보가 포함.
  • 추가 테스트: 유럽 가이드라인에서 다루지 않은 특정 질문들에 대해서는 최신 북미 HCV 가이드라인을 사용하여 프레임워크를 테스트

표준화된 프롬프트 생성

  • 전문가: 두 명의 전문 간학자(M.G. 및 L.S.C.)가 대표적인 20개의 질문(표 4)을 작성.
  • 질문 구성: 15개의 질문은 주요 섹션별 검진 및 관리 권장사항을 다루며, 가이드라인 본문(10개 질문)과 그래픽 테이블(5개 질문)에서 정보를 얻음.
  • 테이블의 중요성: 임상 가이드라인에는 권장사항을 특정 방식으로 요약하는 테이블이 표준적으로 포함되어 있어, 텍스트에 반영되지 않을 수 있음.
  • 종합적인 임상 케이스: 추가로, 다양한 HCV 관련 관리 전략을 반영하는 5개의 종합적인 임상 케이스를 작성하여 최선의 치료 선택, 약물 상호 작용, 치료 중 심각한 부작용 관리 등을 다룸.
  • 질문 구조: 모든 질문은 본문과 테이블 모두에서 추론 및 이해력을 시험하기 위해 구조화.

맞춤형 LLM 프레임워크

  • 연구 방법: RAG를 사용하여 EASL HCV 가이드라인을 다양한 실험 환경에서 적용하였으며, 가이드라인의 재포맷, 프롬프트 구조, 퓨샷 학습의 복잡성을 단계적으로 증가시켜 GPT-4 Turbo 모델에 적용했습니다.
  • 문서 변환: OpenAI의 API v.1.17은 PDF 파일에서 직접 정보를 검색할 수 없기 때문에, 원본 가이드라인 문서는 PyPDF2 v3.0을 사용하여 텍스트 파일로 변환.
  • ablation 연구 방법: 기본 설정(실험 1-5)에서 가이드라인 재포맷, 프롬프트 구조, 퓨샷 학습이 LLM 출력의 정확성과 견고성에 미치는 영향을 조사.

기본 설정

  • 실험 0: 어떤 맥락도 제공되지 않은 기본 GPT-4 Turbo 사용. 질문만 제공됨.

실험 1

  • 실험 방법: PDF를 텍스트로 변환한 후 UTF-8 인코딩으로 가이드라인을 업로드하고 추가적인 텍스트 정리 과정 없이 기본 GPT-4 Turbo 사용.

실험 2

  • 실험 방법: 비정보적 데이터(예: 페이지 헤더, 서지 정보) 제거 후 가이드라인을 정리하고 원본 텍스트에서 이미지로 제시된 테이블을 수동으로 CSV 파일로 변환하여 맥락으로 제공.

실험 3

  • 실험 방법: 가이드라인을 정리하고 전체 문서와 일관된 구조를 제공하도록 포맷팅. 또한 모든 테이블을 CSV 파일에서 텍스트 기반 리스트로 변환하여 주 텍스트에 포함.

실험 4

  • 실험 방법: 가이드라인을 정리하고 포맷팅하며, 테이블을 텍스트 기반 리스트로 변환. 구조화된 가이드라인을 해석하는 방법에 대한 지침을 제공하는 일련의 프롬프트(즉, 프롬프트 엔지니어링)를 제공.

실험 5

  • 실험 방법: 실험 4와 유사하게 가이드라인을 정리하고 포맷팅하며, 테이블을 텍스트 기반 리스트로 변환. 이와 함께 54개의 질문-답변 쌍(즉, 퓨샷 학습)을 포함한 프롬프트 시리즈를 추가.
  • 실험 요약: 이 실험들은 로컬 Python 환경에서 OpenAI API를 사용하여 수행되었으며, 제공된 지침은 보충 표 1에 요약되어 있습니다. 기본 모델의 기본 매개변수를 사용하며, 출력에서 토큰의 최대 수를 800으로 설정하고 온도를 0.9로 설정했습니다.

주요 outcome

  • 주요 결과 측정: EASL 가이드라인에 기반한 전문가 평가를 통해 정확도의 질적 비율을 평가하는 것이 주요 목표. 각 실험 설정에서 20개의 질문에 대해 각각 5회씩 질의를 반복하고 정확한 응답의 비율을 보고. 각 응답은 정보가 완전히 정확할 경우 1점, 그렇지 않을 경우 0점으로 평가.
  • 평가 방법: 두 명의 간전문의 (M.G., HCV 환자 치료 경험 4년; L.S.C., HCV 환자 치료 경험 30년)가 수작업으로 각 응답을 평가. 두 평가자는 서로나 실험 설정에 대해 모르는 상태에서 답변을 평가. 5.0%의 출력에서 평가 차이가 발생하였으며, 이는 두 평가자 간의 합의를 통해 해결.
  • 부정확한 출력 원인: 출력이 부정확한 경우, 이는 환각(즉, 타당해 보이지만 검증되지 않거나 잘못된 정보를 생성하는 것)에 의한 것으로 간주. Zhang et al.의 최근 정의에 따라, 우리는 세 가지 유형의 환각을 정의: FCH, ICH, CCH.

2차 outcome

  • 2차 결과 측정: LLM 생성 응답과 전문가가 제공한 표준 답변 간의 유사성을 평가하는 것이 2차 목표. 특히, 한 명의 전문 간학자(M.G.)가 20개의 질문에 대한 단일 답변을 제공하고, 두 번째 전문 간장학자(L.S.C.)에 의해 검토 및 승인을 받은 후 이를 표준 전문가 응답으로 사용하여 LLM 응답과 비교.
  • 유사성 평가 도구: 유사성은 ROUGE, BLEU, METEOR 및 사용자 정의 OpenAI 점수를 사용하여 평가. 사용자 정의 OpenAI 점수는 코사인 유사성에 기반하며, 다른 점수들은 두 텍스트 소스 간의 단어 중복과 의미적 일관성을 기반.
  • 유사성 측정: 20개 질문에 대해 각각 5회씩 질의를 반복한 후 평균 및 표준 편차를 추정하여 LLM 생성 답변과 전문가가 제공한 해당 답변을 비교. 모든 점수는 0에서 1 사이의 척도로 표현되며, 1점은 두 비교 텍스트 소스 간의 완벽한 일치를 나타냄.