생물.컴퓨터.통계

AI와 함께하는 지식 큐레이션 혁신: STORM 시스템의 탐구

프로페서 H 2024. 8. 18. 08:50

 

 

오늘은 "STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking"에 대해 내용을 정리하고자 합니다. 이 연구는 대규모 언어 모델(LLM)을 활용하여 인터넷 검색을 기반으로 위키피디아 스타일의 기사를 자동으로 작성하는 혁신적인 시스템을 소개합니다.

 

출처: https://github.com/stanford-oval/storm.git

 

GitHub - stanford-oval/storm: An LLM-powered knowledge curation system that researches a topic and generates a full-length repor

An LLM-powered knowledge curation system that researches a topic and generates a full-length report with citations. - stanford-oval/storm

github.com

 

  1. 서론

STORM(Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking)은 스탠포드 대학에서 개발한 LLM 시스템입니다. 이 시스템의 주요 목적은 다음과 같습니다:

  • 인터넷 검색을 기반으로 위키피디아 스타일의 기사를 자동으로 작성
  • 경험 많은 위키피디아 편집자들의 사전 작성 단계를 지원

STORM의 개발 배경:

  • 긴 기사 작성과 인용 처리의 자동화 필요성
  • 기존 LLM의 한계를 극복하기 위한 새로운 접근 방식 모색

 

STORM의 주요 기능

STORM은 기사 생성 과정을 두 단계로 나눕니다:

  1. 사전 작성 단계
    • 인터넷 기반 연구 수행
    • 참고 자료 수집
    • 개요 생성
  2. 작성 단계
    • 생성된 개요와 참고 자료를 사용하여 전체 기사 작성
    • 인용 포함

 

STORM의 핵심 전략:

  • 관점 기반 질문 생성: 유사 주제의 기존 기사를 조사하여 다양한 관점 발견
  • 모의 대화 시뮬레이션: 위키피디아 작성자와 주제 전문가 간의 대화를 시뮬레이션하여 주제 이해 업데이트 및 후속 질문 생성
  1. STORM의 기술적 세부사항

STORM은 dspy를 사용하여 모듈화된 방식으로 구현되었습니다. 주요 구성 요소는 다음과 같습니다:

  • STORMWikiRunner 클래스: STORM 지식 큐레이션 엔진의 핵심
  • 정보 검색 모듈: YouRM, BingSearch, VectorRM 등 지원
  • 언어 모델 모듈: OpenAI, Azure OpenAI, Claude 등 다양한 모델 지원

 

 

STORM의 파이프라인은 4개의 모듈로 구성됩니다:

  1. 지식 큐레이션 모듈
  2. 개요 생성 모듈
  3. 기사 생성 모듈
  4. 기사 정제 모듈

각 모듈은 knowledge_storm/interface.py에 정의된 인터페이스를 따르며, 사용자의 요구에 맞게 커스터마이징이 가능합니다.

 

 

 

  1. STORM의 응용 분야
  • 위키피디아 기사 작성 지원: 편집자들의 사전 작성 단계에서 활용
  • 지식 탐색: 다양한 주제에 대한 포괄적인 정보 수집 및 정리
  • 교육 자료 생성: 학술적 주제에 대한 개요 및 기초 자료 작성
  • 콘텐츠 마케팅: 다양한 주제에 대한 고품질 기사 자동 생성

 

STORM의 장단점

장점:

  • 다양한 관점을 고려한 포괄적인 정보 수집
  • 모듈화된 구조로 높은 확장성 및 커스터마이징 가능성
  • 다양한 언어 모델 및 검색 엔진 지원

단점:

  • 완전한 출판 준비 수준의 기사 생성은 아직 한계가 있음
  • 검색 엔진과 언어 모델의 성능에 의존적

 

결론 및 전망

STORM은 LLM을 활용한 지식 큐레이션 및 기사 작성 자동화의 새로운 지평을 열었습니다. 향후 발전 방향으로는:

  • Human-in-the-Loop 기능: 지식 큐레이션 과정에 사용자 참여 지원
  • 정보 추상화: 위키피디아 스타일 이외의 다양한 형식 지원을 위한 정보 추상화 개발

STORM은 오픈 소스 프로젝트로, 지속적인 개선과 확장이 기대됩니다. 이는 자동화된 지식 생성 및 큐레이션 분야에 중요한 기여를 할 것으로 전망됩니다.


다음은 제가 'regulatory T cell'을 주제로 STORM으로 생성한 리뷰 화면입니다. 

PDF로 보기를 선택하면 참고문헌도 잘 리스트업이 됩니다. 어느 정도 전문분야의 내용을 균형감있게 살펴볼 수 있는 좋은 툴이라고 생각합니다. 

좌측에는 목차가 정렬되어 있고 클릭하면 해당 위치로 이동이 가능합니다. 

참고문헌 기반으로 지식을 검색 제공해주는 perplexity와 유사하기도 하지만, 완결형 보고서 형식을 특징으로하며 perplexity보다 더 근거가 뛰어나다는 생각이 듭니다. STORM으로 전체 숲을 보고 필요에 따라 추가적으로 perplexity를 활용하는 것도 좋은 전략이라고 생각이 듭니다.