생물.컴퓨터.통계

AI의 의학 도전: RAG 모델로 생물의학 질문에 답하다(4)-pathology

프로페서 H 2024. 9. 18. 09:08

 

1차 원고 작성: 2024-09-18

 

오늘은 "ChatGPT for digital pathology research"라는 논문을 정리하고자 합니다. 이 연구는 디지털 병리학 분야에서 **대규모 언어 모델(LLM)**을 활용하는 것의 가능성과 도전 과제를 다룬 리뷰 문헌입니다.

 

출처: Lancet Digital Health (2024). https://doi.org/10.1016/S2589-7500(24)00114-6

 

생성형 인공지능 모델, 특히 ChatGPT와 같은 LLM의 빠른 발전은 의료 연구에서 새로운 가능성을 열고 있습니다. 디지털 병리학은 복잡한 맥락적 이해를 요구하는 급변하는 분야로, LLM의 적용이 주목받고 있습니다. 그러나 이 연구는 제한된 도메인 특화 효율성을 가진 LLM의 한계를 지적하며, 이를 극복하기 위해 FrugalGPT BioBERT 같은 도메인 특화 AI 도구의 필요성을 강조합니다.

 

연구는 디지털 병리학에서 도메인 특화 AI 도구의 잠재력을 강조하며, 문헌 데이터베이스와 사용자 인터페이스가 결합된 시스템을 통해 정확하고 참고할 수 있는 정보 검색이 가능해졌다고 설명합니다. 이러한 도구의 성공을 바탕으로, 연구는 잘못된 응답의 위험을 줄이고 정보 추출의 신뢰성을 높이는 도메인 특화 접근 방식의 중요성을 강조하고 있습니다.

 

또한, 이러한 도구가 과학 연구에 대한 접근성을 높이고, 프로그래밍 경험이 적은 과학자들도 쉽게 디지털 병리학 기법을 사용할 수 있도록 함으로써 더 넓은 영향을 미칠 수 있음을 언급하고 있습니다. 이 논문은 학계에서 도메인 특화 텍스트 생성 AI 도구의 통합을 통해 의료 연구의 발전에 기여할 것을 제안하고 있습니다.

 

  주요 특징 훈련 데이터 크기 주목할 만한 응용
GPT-3 OpenAI, 1750억 매개변수, 자회귀적, 트랜스포머 디코더 아키텍처, RLHF 최적화 (GPT-3.5) 3000억 토큰 문맥 이해, 텍스트 생성, 번역, 요약; GPT-3.5는 채팅 기능 제공 (GPT-3.5-turbo)
GPT-4 OpenAI, 약 1.8조 매개변수, RLHF 최적화, 멀티모달(텍스트 및 이미지 처리) 비공개 GPT-3와 GPT-3.5와 유사하지만 더 긴 문맥 처리, 다중 데이터 모달리티 활용 (텍스트, 이미지 등)
BERT Google, 3억4000만 매개변수, 양방향 트랜스포머 인코더 아키텍처 33억 토큰 감정 분석, 텍스트 분류, 질문 답변
T5 Google, 110억 매개변수, 트랜스포머 아키텍처, 텍스트-텍스트 전이 학습 접근 방식 1조 토큰 텍스트 생성, 번역, 요약, 질문 답변
LaMDA Google, 1370억 매개변수 7680억 토큰 텍스트 생성, 채팅 기능 (Bard에 포함)
Megatron-Turing NLG NVIDIA, 5300억 매개변수, 대규모 병렬처리로 대형 모델 학습 가능 3386억 토큰 문맥 이해, 텍스트 생성, 자연어 추론, 독해력
Llama 2 Meta, 700억 매개변수, RLHF, IT 최적화 2조 토큰 텍스트 생성, 번역, 채팅 기능 (Llama 2-Chat)
PaLM Google, 5400억 매개변수 7680억 토큰 텍스트 생성, 번역, 채팅 기능 (Bard에 포함)
Gemini 1.5 Pro Google, 약 1.5조 매개변수, MoE 기반 트랜스포머 아키텍처 약 30조 토큰 문맥 학습, 콘텐츠 분석, 요약, 분류; 다중 모달 처리 가능 (텍스트, 이미지, 오디오, 비디오)

 

도메인 특화 LLM의 과제

대규모 언어 모델(LLMs)의 능력은 매우 인상적이지만, 특화된 분야에 적용될 때 그 능력이 종종 한계를 가집니다. 이러한 전문 분야는 깊이와 복잡성이 매우 크기 때문에, 정확성과 이해가 필수적입니다. 일반적인 LLM은 방대한 훈련 데이터를 갖추고 있음에도 불구하고, 인간 전문가들이 의존하는 미묘한 세부 사항을 포착하지 못할 수 있습니다. 대신, 이러한 모델은 일반적이고 고수준의 응답을 제공하는 경향이 있으며, 이는 기술적으로는 정확할 수 있지만 전문가 작업에 필요한 특화된 초점과 깊이가 부족할 수 있습니다.

 

디지털 병리학을 사례로 들면, 이 분야는 병리학의 새로운 세부 분야로, 유리 슬라이드에서 스캐너를 사용해 생성된 조직 병리 이미지를 캡처하고 분석하는 작업을 포함합니다. 이 분야는 빠르게 진화하고 있으며, 확장되는 데이터세트 새로운 알고리즘, 혁신적인 임상 통합 애플리케이션이 지속적으로 개발되고 있습니다. 이처럼 지속적으로 증가하는 지식에 따라가는 것은 어렵고, 이러한 상황에서 LLM의 일괄적인 응답 세분화된 결정을 내리는 데 필요한 전문성을 놓치게 되는 문제가 발생하게 됩니다

 

도메인 특화 AI 도구의 발전: BioBERT

앞서 언급한 과제들은 디지털 병리학과 같은 특화된 분야의 요구에 맞춘 도메인 특화 AI 도구의 필요성을 강조합니다. 이러한 특화된 솔루션으로 전환하는 과정에서 비용과 효율성의 균형이 중요한 요소로 등장합니다. 2023년의 발전 중 하나인 FrugalGPT는 특정 쿼리에 맞춰 조정된 모델을 활용해 비용을 절감하면서도 효과적으로 LLM을 활용하는 방법을 보여줍니다. 이러한 특화된 AI 솔루션은 AI의 광범위한 계산 능력을 전문 분야의 독특한 요구 사항에 맞추어 활용합니다.

 

BioBERT는 그중 하나의 사례로, BERT 모델의 변형된 버전입니다. BERT는 원래 일반 도메인 데이터셋(예: 영어 위키백과와 도서 코퍼스)으로 훈련되었으나, BioBERT PubMed 초록 PubMed Central 전체 텍스트  생물의학 문헌을 추가로 학습하여 생물의학 연구 과제에서 성능을 크게 향상시켰습니다.


여러 가지 기술이 LLM의 성능을 향상시키거나 환각이나 부정확한 응답을 줄이기 위해 도메인 특화 검색 프로세스를 통합하여 LLM의 성능을 개선하는 데 사용됩니다.

 

예를 들어, **검색 증강 생성(RAG)**은 쿼리 시점에 특화된 데이터베이스(예: 특정 전문 분야의 과학 문헌)에서 관련 문서나 데이터를 동적으로 검색하고, 이 검색된 데이터를 기반으로 LLM의 생성 과정을 보완합니다.


또 다른 방법으로 P-튜닝은 LLM이 데이터 내 패턴을 인식하고 이를 활용해 예측 또는 분류를 생성하는 능력을 강화합니다. 이 방법은 전통적인 프롬프트 튜닝을 넘어서는 성능을 제공하며, 백프로파게이션을 통해 학습된 소프트 프롬프트를 도입하여 특정 작업에 맞게 성능을 최적화할 수 있도록 동적으로 조정됩니다. P-튜닝은 하드코딩된 프롬프트 방식보다 더 유연하게 다른 도메인에 적응하며, 도메인 전이  다중 작업 학습과 같은 작업에 유리합니다.


또한, 인간 피드백 기반 강화 학습은 인간의 피드백을 바탕으로 LLM(및 기타 AI 시스템)의 출력을 반복적으로 개선하여 전통적인 지도 학습 기법만으로는 명확히 정의하기 어려운 복잡한 목표에 모델의 행동을 맞출 수 있도록 합니다.

 

이러한 특화된 도구의 지속적인 발전은 다양한 과학 분야에서 정확하고 효율적인 솔루션으로 나아가는 길을 열고 있습니다.

 

디지털 병리학을 위한 도메인 특화 AI: GPT4DFCI-RAG

도메인 특화 생성형 AI가 의료 연구에 큰 잠재력을 가지고 있다는 점을 인식한 우리 팀은, 디지털 병리학 분야에서 포괄적인 문헌 데이터베이스를 구축하기 위한 작업을 진행했습니다. 이를 통해 최신 디지털 병리학 연구에 기초한 정확하고 맥락에 맞는 응답을 제공하는 도구를 개발하였습니다.

데이터베이스 구축 및 전처리 과정

저자들은 2022년 1월 이후 발표된 머신러닝 알고리즘, 혁신적 방법론, 새로운 데이터세트  디지털 병리학 응용 프로그램을 포착하기 위해 Google Scholar에서 “병리학”, “H&E”, “깃허브”, “WSI”, “머신러닝”이라는 특정 키워드를 사용해 문헌 검색을 시작했습니다. 이 검색을 통해 650개 출판물이 수집되었으며, 여기에는 동료 심사를 거친 논문 사전 인쇄본이 포함되었습니다. 이후, 우리는 PDF에서 텍스트를 추출하고 데이터를 정제한 다음, 메타데이터를 추가하여 의미적 검색 데이터베이스에 효율적으로 통합될 수 있도록 준비했습니다.

GPT4DFCI-RAG와 RAG 아키텍처의 결합

우리의 접근 방식은 GPT-4 Turbo를 기반으로 하며 **Dana Farber Cancer Institute(DFCI)**에서 비임상 용도로 배포된 GPT4DFCI RAG 아키텍처를 결합해 GPT4DFCI-RAG를 만들었습니다. 이 시스템은 모델을 추가 학습이나 미세 조정 없이 RAG 기술을 사용해 의미적 데이터베이스에 동적으로 질의함으로써 최신 디지털 병리학 문헌에 기반한 정확하고 맥락에 맞는 응답을 생성합니다. 또한, 모델이 각 응답에 대한 근거(즉, 특정 출판물과 그로부터 추출된 정보의 출처)를 제공하도록 요구하여, 650개의 PDF에서 직접 파생된 콘텐츠로 응답을 보완합니다.

폐쇄적 세계 가정과 AI 환각 방지

GPT4DFCI-RAG 닫힌 세계 가정 하에서 작동하며, 이는 모델이 자신의 큐레이션된 문헌에 한정된 지식을 기반으로 응답함을 의미합니다. 이를 통해 환각(허위 정보 생성)의 위험을 크게 줄이고, 보다 신뢰할 수 있는 정보를 제공할 수 있습니다.

성능 비교: GPT4DFCI-RAG vs ChatGPT-4

우리의 웹 애플리케이션의 효과를 입증하기 위해, 우리는 GPT4DFCI-RAG 일반적인 ChatGPT-4 모델의 응답을 비교 평가했습니다. 두 시스템은 모두 GPT-4 Turbo에 의해 구동되었으며, 동일한 쿼리에 대해 응답했습니다. 이 평가는 두 모델이 생성한 응답의 정확성 환각된 응답 빈도에 대한 질적 비교를 기반으로 수행되었습니다.

디지털 병리학 쿼리에서의 성능 우수성

평가를 위해, 우리는 디지털 병리학 최신 연구 결과와 관련된 지식을 검색하는 포괄적인 쿼리 세트를 사용했습니다. 여러 예에서, GPT4DFCI-RAG가 생성한 응답이 ChatGPT-4보다 더 관련성이 높았습니다. 예를 들어, 핵 주석이 포함된 조직 병리학 이미지 데이터세트에 대한 쿼리에 대해 ChatGPT-4 The Cancer Genome Atlas The Cancer Imaging Archive 같은 관련 없는 출처를 나열했습니다. 또한, ChatGPT-4는 존재하지 않는 논문이나 응용 프로그램을 제공하는 환각 현상을 자주 보였으나, 이러한 현상은 GPT4DFCI-RAG에서는 관찰되지 않았습니다.

향후 평가 및 결론

비록 두 시스템 모두 GPT-4 Turbo에 의해 구동되었지만, 이 비교는 현재 질적 평가에 그치며, 정량적 벤치마크를 위한 기준 데이터세트의 개발이 필요합니다. 이 평가 결과는 도메인 특화 언어 모델 일반 챗봇의 한계를 극복하고, 정확하고 신뢰할 수 있는 응답을 제공할 수 있음을 보여줍니다.

 

연구 효율성 및 교육 강화: 잠재적 영향

이 AI 도구들은 아직 생물의학 연구와 공중 보건의 변혁을 주도하는 역할을 하고 있지는 않지만, 지식에 대한 접근을 간소화하고 수동적이거나 반복적인 작업을 자동화함으로써 생산성을 크게 향상시킬 수 있습니다. 이를 통해 더 중요한 작업에 집중할 수 있는 시간을 확보하고, 급격하게 확장되는 연구 주제를 따라가는 데 필요한 인지적 부담을 줄일 수 있습니다.
또한, 이러한 도구들은 코딩과 같은 특정 기술이 없는 연구자들도 이론적 지식을 그들의 특정 분야에 적용할 수 있도록 도와주는 역할을 합니다. 인공지능 리뷰 어시스턴트와 같은 도구는 연구 논문 및 동료 평가의 품질 평가를 자동화하고, 편집자 및 평가자를 추천하는 역할을 수행합니다. 이러한 도메인 특화 도구들은 체계적 문헌 고찰을 수행하는 과정도 간소화하여 고품질의 증거를 생성하는 데 중요한 역할을 할 수 있습니다.

체계적 문헌 고찰의 자동화와 의료 교육에서의 역할

의료 실무와 교육에서 UpToDate는 2023년 자사의 AI 챗봇을 발표하였으며, 이는 의료 지식을 기반으로 맥락화된 증거를 제공합니다. 체계적 문헌 고찰은 특정 연구나 임상 질문에 대해 기존 문헌을 종합하는 작업을 수반하며, 전통적으로 많은 시간과 자원이 소요됩니다. 하지만 도메인 특화 텍스트 생성형 AI 도구는 관련 연구를 자동으로 검색하고 예비 분석을 수행함으로써, 체계적 문헌 고찰에 소요되는 시간을 크게 줄일 수 있습니다. 이러한 도구들은 LLM보다 더 높은 정확도로 증거를 통합하여 더 신속한 의사 결정을 지원할 수 있습니다.

공중 보건에서의 활용 가능성

공중 보건 분야에서도 이러한 도구들은 여러 역학 연구에서 발견된 내용을 통합하고 효과적인 개입책을 빠르게 식별하는 데 도움을 줄 수 있습니다. Jungwirth와 동료들의 연구는 이러한 AI 도구들이 연구 기반 의사결정을 지원하고 새로운 공중 보건 개입을 개발하는 데 큰 영향을 미칠 수 있음을 보고했습니다. 그러나 이 연구는 GPT-3 같은 LLM이 이러한 역할을 충분히 수행하는 데 한계가 있음을 인정하고, 도메인 특화 성능을 향상시키기 위한 미세 조정을 권장했습니다.

의약품 개발과 제약 연구에서의 응용

ChemBERTa ProtGPT2와 같은 도구는 단백질 서열 데이터세트를 기반으로 사전 학습되어 단백질 구조 기능에 대한 깊은 이해를 획득했습니다. ProtGPT2는 새로운 단백질 서열을 생성할 수 있으며, 이는 새로운 발견의 길을 열 수 있습니다. ChemBERTa는 화학 물질의 독성 예측을 위해 미세 조정되었으며, 이는 약물 개발의 중요한 요소입니다. 이러한 도구들이 의약품 개발 프로세스에 통합되면, 개념적 프레임워크에서 실질적인 응용으로 전환하는 속도를 가속화할 수 있습니다.

결론

도메인 특화 텍스트 생성형 AI 도구는 의료 연구와 공중 보건의 효율성을 크게 향상시킬 수 있는 잠재력을 가지고 있지만, 이들의 완전한 잠재력은 아직 완전히 펼쳐지지 않았습니다. 이러한 도구를 학문적 및 연구 프레임워크에 통합하면, 확장되는 학술 데이터베이스에서 지식을 검색하는 효율성과 정확성을 크게 높일 수 있습니다. 일반 LLM의 비용이 계속 증가함에 따라, 더 작은 도메인 특화 LLM이 더 유용하고 경제적인 선택이 될 가능성이 높습니다. 연구 초기 단계에서는 ChatGPT와 같은 일반 LLM을 사용해 아이디어를 탐색하고, 특정 연구 문제가 정의되면 도메인 특화 LLM을 사용하는 것이 더 효율적일 수 있습니다. 궁극적으로, LLM과 RAG 시스템 복잡한 텍스트 정보를 정리하고 요약하는 능력을 발전시키면서, 연구팀이 이러한 도구를 활용하여 과학적 조사의 효율성을 높일 수 있는 가능성도 커질 것입니다.