오늘은 "STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking"에 대해 내용을 정리하고자 합니다. 이 연구는 대규모 언어 모델(LLM)을 활용하여 인터넷 검색을 기반으로 위키피디아 스타일의 기사를 자동으로 작성하는 혁신적인 시스템을 소개합니다.
출처: https://github.com/stanford-oval/storm.git
- 서론
STORM(Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking)은 스탠포드 대학에서 개발한 LLM 시스템입니다. 이 시스템의 주요 목적은 다음과 같습니다:
- 인터넷 검색을 기반으로 위키피디아 스타일의 기사를 자동으로 작성
- 경험 많은 위키피디아 편집자들의 사전 작성 단계를 지원
STORM의 개발 배경:
- 긴 기사 작성과 인용 처리의 자동화 필요성
- 기존 LLM의 한계를 극복하기 위한 새로운 접근 방식 모색
STORM의 주요 기능
STORM은 기사 생성 과정을 두 단계로 나눕니다:
- 사전 작성 단계
- 인터넷 기반 연구 수행
- 참고 자료 수집
- 개요 생성
- 작성 단계
- 생성된 개요와 참고 자료를 사용하여 전체 기사 작성
- 인용 포함
STORM의 핵심 전략:
- 관점 기반 질문 생성: 유사 주제의 기존 기사를 조사하여 다양한 관점 발견
- 모의 대화 시뮬레이션: 위키피디아 작성자와 주제 전문가 간의 대화를 시뮬레이션하여 주제 이해 업데이트 및 후속 질문 생성
- STORM의 기술적 세부사항
STORM은 dspy를 사용하여 모듈화된 방식으로 구현되었습니다. 주요 구성 요소는 다음과 같습니다:
- STORMWikiRunner 클래스: STORM 지식 큐레이션 엔진의 핵심
- 정보 검색 모듈: YouRM, BingSearch, VectorRM 등 지원
- 언어 모델 모듈: OpenAI, Azure OpenAI, Claude 등 다양한 모델 지원
STORM의 파이프라인은 4개의 모듈로 구성됩니다:
- 지식 큐레이션 모듈
- 개요 생성 모듈
- 기사 생성 모듈
- 기사 정제 모듈
각 모듈은 knowledge_storm/interface.py에 정의된 인터페이스를 따르며, 사용자의 요구에 맞게 커스터마이징이 가능합니다.
- STORM의 응용 분야
- 위키피디아 기사 작성 지원: 편집자들의 사전 작성 단계에서 활용
- 지식 탐색: 다양한 주제에 대한 포괄적인 정보 수집 및 정리
- 교육 자료 생성: 학술적 주제에 대한 개요 및 기초 자료 작성
- 콘텐츠 마케팅: 다양한 주제에 대한 고품질 기사 자동 생성
STORM의 장단점
장점:
- 다양한 관점을 고려한 포괄적인 정보 수집
- 모듈화된 구조로 높은 확장성 및 커스터마이징 가능성
- 다양한 언어 모델 및 검색 엔진 지원
단점:
- 완전한 출판 준비 수준의 기사 생성은 아직 한계가 있음
- 검색 엔진과 언어 모델의 성능에 의존적
결론 및 전망
STORM은 LLM을 활용한 지식 큐레이션 및 기사 작성 자동화의 새로운 지평을 열었습니다. 향후 발전 방향으로는:
- Human-in-the-Loop 기능: 지식 큐레이션 과정에 사용자 참여 지원
- 정보 추상화: 위키피디아 스타일 이외의 다양한 형식 지원을 위한 정보 추상화 개발
STORM은 오픈 소스 프로젝트로, 지속적인 개선과 확장이 기대됩니다. 이는 자동화된 지식 생성 및 큐레이션 분야에 중요한 기여를 할 것으로 전망됩니다.
다음은 제가 'regulatory T cell'을 주제로 STORM으로 생성한 리뷰 화면입니다.
PDF로 보기를 선택하면 참고문헌도 잘 리스트업이 됩니다. 어느 정도 전문분야의 내용을 균형감있게 살펴볼 수 있는 좋은 툴이라고 생각합니다.
좌측에는 목차가 정렬되어 있고 클릭하면 해당 위치로 이동이 가능합니다.
참고문헌 기반으로 지식을 검색 제공해주는 perplexity와 유사하기도 하지만, 완결형 보고서 형식을 특징으로하며 perplexity보다 더 근거가 뛰어나다는 생각이 듭니다. STORM으로 전체 숲을 보고 필요에 따라 추가적으로 perplexity를 활용하는 것도 좋은 전략이라고 생각이 듭니다.
'생물.컴퓨터.통계' 카테고리의 다른 글
AI의 의학 도전: RAG 모델로 생물의학 질문에 답하다(2)-hepatology (0) | 2024.08.25 |
---|---|
AI의 의학 도전: RAG 모델로 생물의학 질문에 답하다 (1)-혈액학 (2) | 2024.08.24 |
최신 AI 도구로 효율성 극대화: 릴리스 AI, 감마, 헤이젠, 뤼튼, 이디오그램 (0) | 2024.05.20 |
텍스트 분할 전략의 마스터플랜: RAG-LLM의 진정한 잠재력을 깨우다 (0) | 2024.01.31 |
나만의 데이터로 GPT 활용-local LLM 구축 도전기 (3): LocalGPT (0) | 2024.01.27 |