AI와 함께하는 지식 큐레이션 혁신: STORM 시스템의 탐구

생물.컴퓨터.통계

AI와 함께하는 지식 큐레이션 혁신: STORM 시스템의 탐구

프로페서 H 2024. 8. 18. 08:50

오늘은 "STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking"에 대해 내용을 정리하고자 합니다. 이 연구는 대규모 언어 모델(LLM)을 활용하여 인터넷 검색을 기반으로 위키피디아 스타일의 기사를 자동으로 작성하는 혁신적인 시스템을 소개합니다.

출처: https://github.com/stanford-oval/storm.git

GitHub - stanford-oval/storm: An LLM-powered knowledge curation system that researches a topic and generates a full-length repor

An LLM-powered knowledge curation system that researches a topic and generates a full-length report with citations. - stanford-oval/storm

github.com

서론

STORM(Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking)은 스탠포드 대학에서 개발한 LLM 시스템입니다. 이 시스템의 주요 목적은 다음과 같습니다:

인터넷 검색을 기반으로 위키피디아 스타일의 기사를 자동으로 작성
경험 많은 위키피디아 편집자들의 사전 작성 단계를 지원

STORM의 개발 배경:

긴 기사 작성과 인용 처리의 자동화 필요성
기존 LLM의 한계를 극복하기 위한 새로운 접근 방식 모색

STORM의 주요 기능

STORM은 기사 생성 과정을 두 단계로 나눕니다:

사전 작성 단계
- 인터넷 기반 연구 수행
- 참고 자료 수집
- 개요 생성
작성 단계
- 생성된 개요와 참고 자료를 사용하여 전체 기사 작성
- 인용 포함

STORM의 핵심 전략:

관점 기반 질문 생성: 유사 주제의 기존 기사를 조사하여 다양한 관점 발견
모의 대화 시뮬레이션: 위키피디아 작성자와 주제 전문가 간의 대화를 시뮬레이션하여 주제 이해 업데이트 및 후속 질문 생성

STORM의 기술적 세부사항

STORM은 dspy를 사용하여 모듈화된 방식으로 구현되었습니다. 주요 구성 요소는 다음과 같습니다:

STORMWikiRunner 클래스: STORM 지식 큐레이션 엔진의 핵심
정보 검색 모듈: YouRM, BingSearch, VectorRM 등 지원
언어 모델 모듈: OpenAI, Azure OpenAI, Claude 등 다양한 모델 지원

STORM의 파이프라인은 4개의 모듈로 구성됩니다:

지식 큐레이션 모듈
개요 생성 모듈
기사 생성 모듈
기사 정제 모듈

각 모듈은 knowledge_storm/interface.py에 정의된 인터페이스를 따르며, 사용자의 요구에 맞게 커스터마이징이 가능합니다.

STORM의 응용 분야

위키피디아 기사 작성 지원: 편집자들의 사전 작성 단계에서 활용
지식 탐색: 다양한 주제에 대한 포괄적인 정보 수집 및 정리
교육 자료 생성: 학술적 주제에 대한 개요 및 기초 자료 작성
콘텐츠 마케팅: 다양한 주제에 대한 고품질 기사 자동 생성

STORM의 장단점

장점:

다양한 관점을 고려한 포괄적인 정보 수집
모듈화된 구조로 높은 확장성 및 커스터마이징 가능성
다양한 언어 모델 및 검색 엔진 지원

단점:

완전한 출판 준비 수준의 기사 생성은 아직 한계가 있음
검색 엔진과 언어 모델의 성능에 의존적

결론 및 전망

STORM은 LLM을 활용한 지식 큐레이션 및 기사 작성 자동화의 새로운 지평을 열었습니다. 향후 발전 방향으로는:

Human-in-the-Loop 기능: 지식 큐레이션 과정에 사용자 참여 지원
정보 추상화: 위키피디아 스타일 이외의 다양한 형식 지원을 위한 정보 추상화 개발

STORM은 오픈 소스 프로젝트로, 지속적인 개선과 확장이 기대됩니다. 이는 자동화된 지식 생성 및 큐레이션 분야에 중요한 기여를 할 것으로 전망됩니다.

다음은 제가 'regulatory T cell'을 주제로 STORM으로 생성한 리뷰 화면입니다.

PDF로 보기를 선택하면 참고문헌도 잘 리스트업이 됩니다. 어느 정도 전문분야의 내용을 균형감있게 살펴볼 수 있는 좋은 툴이라고 생각합니다.

좌측에는 목차가 정렬되어 있고 클릭하면 해당 위치로 이동이 가능합니다.

참고문헌 기반으로 지식을 검색 제공해주는 perplexity와 유사하기도 하지만, 완결형 보고서 형식을 특징으로하며 perplexity보다 더 근거가 뛰어나다는 생각이 듭니다. STORM으로 전체 숲을 보고 필요에 따라 추가적으로 perplexity를 활용하는 것도 좋은 전략이라고 생각이 듭니다.

저작자표시 비영리 변경금지

'생물.컴퓨터.통계' 카테고리의 다른 글

AI의 의학 도전: RAG 모델로 생물의학 질문에 답하다(2)-hepatology (0)	2024.08.25
AI의 의학 도전: RAG 모델로 생물의학 질문에 답하다 (1)-혈액학 (2)	2024.08.24
최신 AI 도구로 효율성 극대화: 릴리스 AI, 감마, 헤이젠, 뤼튼, 이디오그램 (0)	2024.05.20
텍스트 분할 전략의 마스터플랜: RAG-LLM의 진정한 잠재력을 깨우다 (0)	2024.01.31
나만의 데이터로 GPT 활용-local LLM 구축 도전기 (3): LocalGPT (0)	2024.01.27

현재글AI와 함께하는 지식 큐레이션 혁신: STORM 시스템의 탐구

"안녕하세요, 프로페서 H입니다. 암 연구 최신 성과를 직관적, 이해하기 쉽게 전달합니다. 의학의 세계, 함께 탐험해요!"

대규모언어모델, 앱개발, ChatGPT, 프롬프트, 급성골수성백혈병, 의학, research, Tcell, pdf, Rag, 인공지능, 백혈병, 의료AI, 챗지피티, llm, claude, Blood, 클로드, 다발성골수종, ai,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

프로페서 H의 메디톡