생물.컴퓨터.통계

🔍 "LLM을 더 똑똑하게 만드는 법: Instruction 기반 학습을 위한 데이터셋 총정리"

프로페서 H 2025. 5. 29. 13:51

 
📌 요약
대형 언어 모델(LLM)이 실제 사용자의 질문에 유용한 답변을 제공하려면, 다양한 태스크에 최적화된 학습이 필요합니다. 그 중심에는 Instruction-based Retrieval 데이터셋이 있습니다. 이 글에서는 질문응답부터 요약, 패러프레이징, 코드 검색까지 대표적인 13개 데이터셋의 특성과 다운로드 링크, 라이선스 정보를 정리합니다.


✅ 1. Question Answering

데이터셋설명다운로드 링크라이선스
SQuAD (v1.1/v2) 위키피디아 기반 정답 span 추출형 QA SQuAD v2 CC BY-SA 4.0
HotpotQA 다중 문단 추론형 질문 포함 HotpotQA MIT
Natural Questions 구글 검색 기반 자연스러운 질문-답변 NQ Dataset CC BY 4.0
MSMARCO Bing 검색 기반 대규모 QA MSMARCO Custom Microsoft Research
SearchQA Jeopardy 퀴즈 기반 QA 데이터 SearchQA Unknown (비상업 목적 허용)
ELI5 Reddit 기반 긴 설명형 QA ELI5 Apache 2.0
WikiHow 실제 지침형 질문과 절차 설명 포함 WikiHow QA CC BY-NC-SA 3.0
PubMedQA PubMed 논문 기반 의학 QA PubMedQA CC BY 4.0
MedMCQA 의학 시험문제형 QA (AIIMS/NEET 기반) MedMCQA MIT
ReCoRD 독해+상식 추론형 QA ReCoRD CC BY 4.0
 

✅ 2. Duplicated Question Detection

데이터셋설명다운로드 링크라이선스
Quora Question Pairs 질문 유사성 판별 Quora QP Quora Terms (Kaggle)
StackExchange (dup) StackExchange의 중복 질문 SE Duplicate Qs CC BY-SA 3.0
OQA (Open QA Duplicates) 다양한 공개 QA 데이터 중복 질문 판별용 OQA Apache 2.0
 

✅ 3. Summarization

데이터셋설명다운로드 링크라이선스
CNN/DailyMail 뉴스 기사 요약 CNN/DM Non-commercial research
XSUM BBC 뉴스 단일 문장 요약 XSUM CC BY 4.0
NPR 미국 공영라디오 요약 (Abstractive) NPR Summarization Mixed (check individual entries)
Multi-LexSUM 법률 문서 요약 https://github.com/multilexsum/dataset MIT
SciTLDR 과학 논문 요약 (TLDR 기반) SciTLDR CC BY 4.0
 

✅ 4. Dialogue & Conversational QA

데이터셋설명다운로드 링크라이선스
Wizard of Wikipedia 위키 기반의 대화 지식 강화 WoW CC BY 4.0
QReCC 쿼리 리라이팅 및 컨텍스트 유지 QReCC Apple Sample Code License (비영리 한정)
 

✅ 5. Paraphrasing / Simplification

데이터셋설명다운로드 링크라이선스
Medical Text Simplification 의료 텍스트를 쉽게 표현 MedSimplify (HuggingFace) Apache 2.0 또는 CC BY-NC-SA
 

✅ 6. Fact Checking

데이터셋설명다운로드 링크라이선스
FEVER 위키 기반 진실/거짓 분류 FEVER CC BY-SA 4.0
 

✅ 7. Others (Code / Vision-Language)

데이터셋설명다운로드 링크라이선스
CodeSearchNet 프로그래밍 언어 검색/설명 매칭 CodeSearchNet MIT
COCO Captions 이미지 설명 캡션 MS COCO Creative Commons Attribution 4.0
 

🔍 마무리 정리

Instruction 기반 학습은 단순한 언어 처리에서 벗어나 상황 이해, 맥락 추론, 지식 응용 능력을 키우는 핵심입니다. 위에서 소개한 데이터셋을 조합하면 다음과 같은 고급 모델 학습이 가능합니다:

  • 🧠 QA + 요약 → 논문 요약 기반 질의응답 시스템
  • 🧬 의료 QA + 텍스트 단순화 → 환자 친화형 AI 상담 시스템
  • 💬 대화형 QA + 중복질문 판별 → 챗봇의 검색 효율 향상

 
powered by chatGPT