
최근 발표된 DeepSeek-VL, DeepSeek-Coder, DeepSeek R1 등 최신 모델 개발 트렌드는 단순한 학습 기법 나열이 아닌, 단계별 설계 흐름에 맞춘 학습 전략의 조합을 따릅니다. 특히 DeepSeek R1의 경우, 사전학습 → 슈퍼바이즈드 파인튜닝 → 보상 기반 강화학습의 순서로 구성되며, 각 단계에 필요한 학습 기법들이 체계적으로 배치됩니다.🧠 DeepSeek R1 모델 개발 과정에서의 학습 전략 구조📌 개요: R1 또는 GPT-4/Claude 계열 LLM의 일반적 구성[ Pretraining ] → [ Supervised Fine-Tuning ] → [ Reward Modeling ] → [ Reinforcement Fine-Tuning ] ..