📌 요약
대형 언어 모델(LLM)이 실제 사용자의 질문에 유용한 답변을 제공하려면, 다양한 태스크에 최적화된 학습이 필요합니다. 그 중심에는 Instruction-based Retrieval 데이터셋이 있습니다. 이 글에서는 질문응답부터 요약, 패러프레이징, 코드 검색까지 대표적인 13개 데이터셋의 특성과 다운로드 링크, 라이선스 정보를 정리합니다.
✅ 1. Question Answering
데이터셋설명다운로드 링크라이선스
SQuAD (v1.1/v2) | 위키피디아 기반 정답 span 추출형 QA | SQuAD v2 | CC BY-SA 4.0 |
HotpotQA | 다중 문단 추론형 질문 포함 | HotpotQA | MIT |
Natural Questions | 구글 검색 기반 자연스러운 질문-답변 | NQ Dataset | CC BY 4.0 |
MSMARCO | Bing 검색 기반 대규모 QA | MSMARCO | Custom Microsoft Research |
SearchQA | Jeopardy 퀴즈 기반 QA 데이터 | SearchQA | Unknown (비상업 목적 허용) |
ELI5 | Reddit 기반 긴 설명형 QA | ELI5 | Apache 2.0 |
WikiHow | 실제 지침형 질문과 절차 설명 포함 | WikiHow QA | CC BY-NC-SA 3.0 |
PubMedQA | PubMed 논문 기반 의학 QA | PubMedQA | CC BY 4.0 |
MedMCQA | 의학 시험문제형 QA (AIIMS/NEET 기반) | MedMCQA | MIT |
ReCoRD | 독해+상식 추론형 QA | ReCoRD | CC BY 4.0 |
✅ 2. Duplicated Question Detection
데이터셋설명다운로드 링크라이선스
Quora Question Pairs | 질문 유사성 판별 | Quora QP | Quora Terms (Kaggle) |
StackExchange (dup) | StackExchange의 중복 질문 | SE Duplicate Qs | CC BY-SA 3.0 |
OQA (Open QA Duplicates) | 다양한 공개 QA 데이터 중복 질문 판별용 | OQA | Apache 2.0 |
✅ 3. Summarization
데이터셋설명다운로드 링크라이선스
CNN/DailyMail | 뉴스 기사 요약 | CNN/DM | Non-commercial research |
XSUM | BBC 뉴스 단일 문장 요약 | XSUM | CC BY 4.0 |
NPR | 미국 공영라디오 요약 (Abstractive) | NPR Summarization | Mixed (check individual entries) |
Multi-LexSUM | 법률 문서 요약 | https://github.com/multilexsum/dataset | MIT |
SciTLDR | 과학 논문 요약 (TLDR 기반) | SciTLDR | CC BY 4.0 |
✅ 4. Dialogue & Conversational QA
✅ 5. Paraphrasing / Simplification
데이터셋설명다운로드 링크라이선스
Medical Text Simplification | 의료 텍스트를 쉽게 표현 | MedSimplify (HuggingFace) | Apache 2.0 또는 CC BY-NC-SA |
✅ 6. Fact Checking
데이터셋설명다운로드 링크라이선스
FEVER | 위키 기반 진실/거짓 분류 | FEVER | CC BY-SA 4.0 |
✅ 7. Others (Code / Vision-Language)
데이터셋설명다운로드 링크라이선스
CodeSearchNet | 프로그래밍 언어 검색/설명 매칭 | CodeSearchNet | MIT |
COCO Captions | 이미지 설명 캡션 | MS COCO | Creative Commons Attribution 4.0 |
🔍 마무리 정리
Instruction 기반 학습은 단순한 언어 처리에서 벗어나 상황 이해, 맥락 추론, 지식 응용 능력을 키우는 핵심입니다. 위에서 소개한 데이터셋을 조합하면 다음과 같은 고급 모델 학습이 가능합니다:
- 🧠 QA + 요약 → 논문 요약 기반 질의응답 시스템
- 🧬 의료 QA + 텍스트 단순화 → 환자 친화형 AI 상담 시스템
- 💬 대화형 QA + 중복질문 판별 → 챗봇의 검색 효율 향상
powered by chatGPT
'생물.컴퓨터.통계' 카테고리의 다른 글
🧠 AI 언어 모델 ‘Claude’의 머릿속 들여다보기 (1) | 2025.04.01 |
---|---|
PDF 파서 - 비교 연구들 (0) | 2025.03.29 |
[웨비나] Unlocking Immunology Data: Exploring the ImmPort Database, Access Strategies, and AI-Ready Datasets (0) | 2025.03.19 |
클로드가 답하다: 800K SFT 샘플의 크기는 도대체 얼마만한 크기인가? (0) | 2025.02.15 |
🔥 최신 RAG 모델 비교! 어떤 방식이 가장 효율적일까? (0) | 2025.02.11 |