생물.컴퓨터.통계

AI의 의학 도전: RAG 모델로 생물의학 질문에 답하다 (1)-혈액학

프로페서 H 2024. 8. 24. 19:36

 

1차 원고 작성: 2024-08-24

 

오늘은 "Improving accuracy of GPT-3/4 results on biomedical data using a retrieval-augmented language model"이라는 논문에 대해 내용을 정리하고자 합니다. 이 연구는 대규모 언어 모델(LLM)을 활용하여 생물의학 분야의 질문에 더 정확하게 답변할 수 있는 방법을 탐구한 중요한 논문입니다.

 

출처: PLOS Digital Health (2024) 3(8): e0000568. https://doi.org/10.1371/journal.pdig.0000568

 

대규모 언어 모델(LLM)은 일반적인 인공지능 분야에서 큰 영향을 미치고 있지만, 특정 주제 영역에 대해 때때로 오해의 소지가 있는 결과를 생성할 수 있습니다. 이 연구에서는 생물의학 연구 분야에 특화된 문헌을 사용하여 검색 증강 생성(RAG) 모델을 테스트하고, 기존의 LLM들과 성능을 비교했습니다.

 

이 연구의 주요 내용은 다음과 같습니다:

  • OpenAI의 GPT-3.5, GPT-4, Microsoft의 Prometheus, 그리고 사용자 정의 RAG 모델을 사용하여 미만성 거대 B세포 림프종(DLBCL)의 질병 생물학 및 치료에 관한 19개의 질문에 답변
  • 8명의 독립적인 검토자가 정확성, 관련성, 가독성을 기준으로 LLM 응답을 평가
  • RAG 모델이 정확성과 관련성 면에서 다른 모델들을 능가하는 성능을 보임
  • GPT-4와 GPT-3.5는 가독성 면에서 가장 높은 점수를 받았지만, 다른 LLM들에 비해 환각(hallucination) 현상이 더 많이 발생함
  • 종양학 연구에 초점을 맞춘 RAG 모델이 주제 관련 질문에 답변할 때 일반 목적 LLM보다 정확성과 관련성 면에서 더 우수할 수 있음을 시사
  • 이 프레임워크는 다른 주제 영역의 Q&A에도 맞춤 적용될 수 있음을 제안

연구 배경

최근 몇 년간 대규모 언어 모델(LLMs)의 발전은 자연어 처리 분야에 혁명을 가져왔습니다. 이러한 모델들은 감정 분석, 기계 번역, 코드 생성, 질문 응답 등 다양한 분야에서 높은 성능을 보여주고 있습니다. 하지만, LLM들은 일반적인 목적으로 설계되었기 때문에 특정 도메인의 지식과 어휘에 대한 한계를 가지고 있습니다. 또한, 편향된 데이터에 기반한 편견을 지속시킬 수 있으며, 사용자 의도를 더 잘 이해하고 진실성을 높이기 위한 추가적인 학습이 필요합니다. 특히, 과학 연구나 의료 분야에서는 잘못된 정보를 생성할 수 있는 LLM의 '환각' 가능성이 큰 우려를 낳고 있습니다. 이는 연구나 임상 설정에서 모델의 널리 사용되는 것을 제한할 수 있습니다.

연구 목표

  • 다양한 분야에 걸친 언어 패턴과 지식을 포착하는 기존 LLM들과 달리, 특정 도메인에 초점을 맞춘 코퍼스를 사용하여 LLM의 재훈련이나 미세조정을 통해 잘못된 정보 생성의 위험을 줄이고, 전문 분야에서의 LLM 출력의 신뢰성과 정확성을 향상시킬 수 있는 방법을 탐구합니다.

연구 방법

  • 대상: 이 연구는 질병 특성화, 유전 하위 유형, 치료 옵션, 그리고 임상 결과를 포함한 평가 기반의 질문 세트를 사용하여 DLBCL(Diffuse Large B-Cell Lymphoma)에 대해 여러 LLMs의 정확성을 평가합니다.
  • 방법: RAG(검색 증강 생성) 접근 방식을 사용하여 질문에 대한 적절한 컨텍스트를 검색하고, 이를 기반으로 LLM에 씨딩하여 응답을 생성하도록 합니다. 이 과정에서, 도메인 특화 코퍼스를 활용하여 최신 및 관련 정보를 제공합니다.
  • 평가 기준: 세 가지 평가 메트릭을 사용하여 모델 출력을 비교 분석합니다.

이 연구는 과학 연구를 촉진하는 데 LLMs를 적용하는 실용적인 사례를 제시하고, 정보 소스에 따라 LLMs의 장단점을 강조합니다.

 

 

 

토론

 

  • 본 연구에서는 DLBCL 환자의 치료와 예후와 관련된 질적 및 양적 생물의학 질문에 대한 LLM의 정확성과 유용성을 정량화하였습니다.
  • 연구 결과: RAG 모델은 다른 평가된 LLM들에 비해 생물의학적 과제에서 더 높은 정확성과 결과의 관련성을 보여주었습니다. 이는 RAG 모델이 특정 분야에 대해 더 정확하고 신뢰할 수 있는 정보를 제공할 수 있으며, 일반적인 LLM의 유연성과 적응성을 유지하면서도 관련 없거나 오도하는 출력을 생성할 가능성을 줄일 수 있음을 시사합니다.
  • RAG 모델의 장점: RAG 모델의 주요 장점은 기존 LLM이 훈련되지 않았을 수 있는 새로운 도메인 지식을 쉽게 통합할 수 있다는 것입니다. 새로운 문서가 코퍼스에 추가될 때 모델은 미래의 질의 동안 검색을 용이하게 하기 위해 임베딩을 계산하기만 하면 됩니다.
  • RAG 모델의 단점: LLM을 새로운 코퍼스로 미세조정 (fine-tuning) 하거나 재훈련하는 데는 시간과 자원(계산 및 개발자 자원)이 많이 듭니다. RAG 모델은 기존에 훈련된 LLM을 특정 작업을 수행하도록 요구하기 때문에, 많은 양의 토큰을 입력으로 사용하고 기본 LLM 추론(예: 텍스트 완성 API) 호출의 여러 반복을 필요로 할 수 있어 응용 프로그램에서 계산 비용을 증가시킬 수 있습니다.
  • 성능의 한계: 기본 LLM의 어휘(토크나이저)와 개념의 내부 표현(임베딩)의 한계에 의해 RAG의 성능이 제한됩니다. 예를 들어, MRD(최소 잔존 질병)에 관한 질문에 대해 문서 검색기는 MRD가 있는 다발성 골수종과 만성 림프구성 백혈병에 대한 기사를 반환했으나, RAG 모델은 여기에 사용된 GPT-3 요약 엔진이 다른 질병 유형을 구별하지 못해 잘못된 답변을 생성했습니다.
  • 개선 방안: 보다 정교한 문서 검색 방법을 활용하거나, BioBERT 및 PubMedBERT와 같은 도메인 특화 모델을 토큰화와 임베딩 계산에 사용할 수 있습니다. 추가적인 메타데이터 필터를 사용하여 검색된 문서의 관련성을 개선할 수도 있습니다. 이러한 방법을 수정하여 PubMed에서 관련 문서를 직접 검색할 때, V(D)J 시퀀스로 질병 클론의 측정 및 임상 결과와의 연관성에 대해 정보성 있고 관련성 있는 답변을 제공할 수 있습니다.

 

연구 방법

RAG 모델 및 데이터셋 요약:

  • 데이터 출처 및 검색어 사용: PubMed Central (PMC [52])에서 Entrez E-utilities [53]를 활용하여 과학 논문들을 수집했습니다. 사용된 검색어에는 ‘diffuse large b-cell lymphoma’, ‘follicular lymphoma’, ‘epcoritamab’, ‘glofitamab’, ‘minimal residual disease’, ‘ctDNA’ 등이 포함되어 DLBCL과 관련된 치료 옵션 및 기준에 초점을 맞춘 말뭉치corpus를 구성했습니다.
  • 논문 선정 및 전처리 과정:
    • 최대 500개의 논문을 각 검색어로부터 수집했습니다.
    • text splitting; 수집된 논문은 구조화되지 않은 텍스트나 noisy 텍스트 (예: 그림, 표, 참조 문헌)를 제외하고 4,000 토큰 단위로 분할하여 전처리했습니다.
  • 임베딩 생성 및 저장:
    • OpenAI 모델 text-embedding-ada-002를 사용하여 문서의 임베딩을 계산했습니다.
    • 계산된 임베딩은 로컬 데이터베이스에 저장되었습니다.
  • 질의응답 및 임베딩 검색:
    • 총 19개의 질문에 대해 각 질문을 임베딩 벡터로 변환하고 이를 데이터베이스의 임베딩과 코사인 유사도를 사용하여 비교했습니다.
    • 유사도가 높은 상위 k 문서 세그먼트를 검색하여 사용자 쿼리에 대한 지식 컨텍스트를 형성했습니다.
  • 답변 생성 과정:
    • 두 단계의 답변 생성 과정을 통해 각 쿼리에 대한 최종 응답을 형성했습니다.
    • 첫 번째 단계에서는 text-davinci-003 모델을 사용하여 각 k 컨텍스트 세그먼트로부터 답변을 생성했고, 두 번째 단계에서는 요약 프롬프트를 사용하여 k 개의 답변을 종합했습니다.