supervised fine tuning과 강화학습으로 모델을 향상시킬 수 있다고 합니다.
Deepseek 팀은 이를 위해서 대략 800K SFT 샘플을 사용했다고 하는데 이것이 얼마만한 크기인지 궁금해서 클로드에게 질문했습니다.
800K SFT(Supervised Fine-Tuning) 샘플의 크기를 Q&A 형식으로 설명하겠습니다:
Q: 800K 샘플은 정확히 몇 개의 데이터를 의미하나요? A: 800K는 800,000개의 데이터 샘플을 의미합니다. 즉, 80만 개의 질문-답변 쌍이나 지시-응답 쌍으로 구성됩니다.
Q: 텍스트 데이터로 환산하면 어느 정도의 크기인가요? A: 일반적인 Q&A 쌍을 기준으로 예상해보면:
- 평균 질문 길이: 50단어
- 평균 답변 길이: 100단어
- 총 800,000개 Q&A 쌍
- 대략 1.2억 단어 (150단어 × 800,000)
- 일반적인 책이 8만 단어라고 가정하면, 약 1,500권의 책에 해당하는 분량
Q: 이 데이터를 저장하면 얼마만한 저장 공간이 필요한가요? A: 텍스트 데이터 기준으로:
- 평균 Q&A 쌍이 1KB라고 가정
- 800,000 × 1KB = 약 800MB
- 메타데이터와 추가 정보 포함 시 약 1GB 내외
Q: 처리하는데 얼마나 많은 컴퓨팅 파워가 필요한가요? A: 대규모 언어 모델 학습 기준:
- 여러 대의 고성능 GPU 필요 (예: 8-32개의 A100 GPU)
- 수일에서 수주의 학습 시간
- 수백에서 수천 GPU 시간의 연산
- 상당한 전력 소비 (수천 kWh)
Q: 이는 다른 AI 모델의 학습 데이터셋과 비교하면 어느 정도 규모인가요? A:
- GPT-3의 학습 데이터가 수억 개의 샘플을 사용한 것과 비교하면 중간 규모
- BERT나 RoBERTa의 초기 사전학습 데이터셋과 비슷한 규모
- 일반적인 파인튜닝 데이터셋(1-10만 개)보다는 훨씬 큰 규모
꽤 큰 샘플양이네요..
'생물.컴퓨터.통계' 카테고리의 다른 글
PDF 파서 - 비교 연구들 (0) | 2025.03.29 |
---|---|
[웨비나] Unlocking Immunology Data: Exploring the ImmPort Database, Access Strategies, and AI-Ready Datasets (0) | 2025.03.19 |
🔥 최신 RAG 모델 비교! 어떤 방식이 가장 효율적일까? (0) | 2025.02.11 |
PDF에서 정보를 추출하려고 할 때... (1) | 2025.02.02 |
RAG기반 LLM의 사용자 경험 (1) | 2025.01.13 |