2025/05/29 2

🤖 대형 언어 모델을 진화시키는 법: Instruction부터 Reinforcement까지, 주요 학습 기법 총정리

최근 발표된 DeepSeek-VL, DeepSeek-Coder, DeepSeek R1 등 최신 모델 개발 트렌드는 단순한 학습 기법 나열이 아닌, 단계별 설계 흐름에 맞춘 학습 전략의 조합을 따릅니다. 특히 DeepSeek R1의 경우, 사전학습 → 슈퍼바이즈드 파인튜닝 → 보상 기반 강화학습의 순서로 구성되며, 각 단계에 필요한 학습 기법들이 체계적으로 배치됩니다.🧠 DeepSeek R1 모델 개발 과정에서의 학습 전략 구조📌 개요: R1 또는 GPT-4/Claude 계열 LLM의 일반적 구성[ Pretraining ] → [ Supervised Fine-Tuning ] → [ Reward Modeling ] → [ Reinforcement Fine-Tuning ] ..

카테고리 없음 2025.05.29

🔍 "LLM을 더 똑똑하게 만드는 법: Instruction 기반 학습을 위한 데이터셋 총정리"

📌 요약대형 언어 모델(LLM)이 실제 사용자의 질문에 유용한 답변을 제공하려면, 다양한 태스크에 최적화된 학습이 필요합니다. 그 중심에는 Instruction-based Retrieval 데이터셋이 있습니다. 이 글에서는 질문응답부터 요약, 패러프레이징, 코드 검색까지 대표적인 13개 데이터셋의 특성과 다운로드 링크, 라이선스 정보를 정리합니다.✅ 1. Question Answering 데이터셋설명다운로드 링크라이선스 SQuAD (v1.1/v2) 위키피디아 기반 정답 span 추출형 QA SQuAD v2 CC BY-SA 4.0 HotpotQA 다중 문단 추론형 질문 포함 HotpotQA ..