생물.컴퓨터.통계 36

LLM 파인튜닝의 딜레마: 새로운 걸 배우면 예전 걸 잊어버린다고? 🤔

LLM 파인튜닝의 딜레마: 새로운 걸 배우면 예전 걸 잊어버린다고? 🤔"ChatGPT에게 친근한 말투를 가르쳤는데, 그러고 나니 정중한 말투를 까먹어버렸어요. 이런 일이 정말 일어나나요?"이런 경험, 혹시 있으신가요? 실제로 이는 AI 업계에서 매우 중요한 문제입니다. 오늘은 대화형 AI를 여러 스타일로 학습시킬 때 발생하는 문제와 해결책에 대해 알아보겠습니다.🧠 인간의 뇌 vs AI의 뇌: 무엇이 다를까?인간은 새로운 언어를 배워도 모국어를 잊지 않습니다. 하지만 AI는 다릅니다. AI의 치명적인 약점: Catastrophic Forgetting스타일 A 학습 → 스타일 B 학습 → 어? 스타일 A가 사라졌네? 😱이는 마치 새로운 책의 내용으로 기존 책의 페이지를 덮어쓰는 것과 같습니다. AI의 ..

Multimodal LLM이 생성모델의 왕좌를 뺏을 수 있을까? 👑🤖

핵심 질문"GPT-4V, Gemini 같은 Multimodal LLM이 갈수록 똑똑해지는데, 이제 GAN이나 Diffusion Model 필요 없어지는 거 아냐?"1. 현재 상황: 각자의 영역에서 최강! ⚔️Multimodal LLM의 현재 능력📝 텍스트 → 이미지: "고양이 그려줘" → 그림 생성🖼️ 이미지 → 텍스트: 사진 보고 설명🔄 멀티태스킹: 동시에 여러 모달리티 처리대표 선수들:GPT-4V: 이미지 이해 + 텍스트 생성Gemini Ultra: 비디오/오디오/텍스트 통합Claude 3: 문서 분석 + 이미지 해석전문 생성모델들의 현재 능력🎨 Diffusion: 초고품질 예술 작품 (Midjourney 급)⚡ GAN: 실시간 얼굴 변환 (DeepFake 급)🎬 Video Generatio..

GAN vs Diffusion Model: 같은 노이즈, 다른 마법 🎭✨

핵심 질문"GAN과 Diffusion Model 모두 노이즈에서 이미지를 생성한다고 하는데, 도대체 뭐가 다른 거야?"노이즈의 정체가 완전히 다르다! 🔍GAN의 노이즈: "완전한 랜덤"z ~ N(0,1) # 표준 정규분포의 완전 랜덤 벡터↓Generator(z) → 이미지특징: 처음부터 끝까지 의미 없는 순수 랜덤목적: 잠재 공간(latent space)에서의 압축된 표현비유: 씨앗(seed)에서 바로 나무가 자라는 것Diffusion Model의 노이즈: "점진적으로 파괴된 잔해"실제 이미지 → [노이즈 추가 과정] → 완전한 노이즈완전한 노이즈 → [노이즈 제거 과정] → 복원된 이미지특징: 원본 이미지에 체계적으로 노이즈를 추가한 결과목적: 원본으로 되돌아가는 과정을 학습비유: 퍼즐을 완전히 흩..

🔍 "LLM을 더 똑똑하게 만드는 법: Instruction 기반 학습을 위한 데이터셋 총정리"

📌 요약대형 언어 모델(LLM)이 실제 사용자의 질문에 유용한 답변을 제공하려면, 다양한 태스크에 최적화된 학습이 필요합니다. 그 중심에는 Instruction-based Retrieval 데이터셋이 있습니다. 이 글에서는 질문응답부터 요약, 패러프레이징, 코드 검색까지 대표적인 13개 데이터셋의 특성과 다운로드 링크, 라이선스 정보를 정리합니다.✅ 1. Question Answering 데이터셋설명다운로드 링크라이선스 SQuAD (v1.1/v2) 위키피디아 기반 정답 span 추출형 QA SQuAD v2 CC BY-SA 4.0 HotpotQA 다중 문단 추론형 질문 포함 HotpotQA ..

🧠 AI 언어 모델 ‘Claude’의 머릿속 들여다보기

🧠 AI 언어 모델 ‘Claude’의 머릿속 들여다보기― 단어 하나가 아닌, 생각 전체를 계획하는 AI의 비밀 ―안녕하세요, 이번에는 최신 인공지능(AI) 기술 중에서도 사람처럼 말하고, 대답하고, 심지어 시(詩)까지 쓰는 언어 모델 ‘Claude’의 놀라운 작동 방식에 대해 알아보려 합니다. AI가 그저 데이터로 훈련된 기계일 거라 생각하셨다면, 오늘 소개해드릴 내용이 꽤 놀라울겁니다 요약 참고 자료: https://www.anthropic.com/news/tracing-thoughts-language-modelhttps://youtu.be/4xAiviw1X8M?si=qKR7ktAiCTJFeXIQ 1️⃣ 언어를 넘어선 ‘공통된 생각의 언어’Claude는 한국어, 영어, 프랑스어 등 여러 언어로 질문을..

클로드가 답하다: 800K SFT 샘플의 크기는 도대체 얼마만한 크기인가?

supervised fine tuning과 강화학습으로 모델을 향상시킬 수 있다고 합니다. Deepseek 팀은 이를 위해서 대략 800K SFT 샘플을 사용했다고 하는데 이것이 얼마만한 크기인지 궁금해서 클로드에게 질문했습니다.800K SFT(Supervised Fine-Tuning) 샘플의 크기를 Q&A 형식으로 설명하겠습니다: Q: 800K 샘플은 정확히 몇 개의 데이터를 의미하나요? A: 800K는 800,000개의 데이터 샘플을 의미합니다. 즉, 80만 개의 질문-답변 쌍이나 지시-응답 쌍으로 구성됩니다. Q: 텍스트 데이터로 환산하면 어느 정도의 크기인가요? A: 일반적인 Q&A 쌍을 기준으로 예상해보면:평균 질문 길이: 50단어평균 답변 길이: 100단어총 800,000개 Q&A 쌍대략 1...

🔥 최신 RAG 모델 비교! 어떤 방식이 가장 효율적일까?

🔥 최신 RAG 모델 비교! 어떤 방식이 가장 효율적일까?📌 RAG(Retrieval-Augmented Generation) 모델은 대규모 언어 모델(LLM)과 검색 시스템을 결합하여 더 정확하고 효율적인 정보를 제공하는 기술입니다. LightRAG과 비교되는 대표적인 최신 RAG 기법들을 정리해봤습니다!1️⃣ Naive RAG (기본형 RAG) [Gao et al., 2023]✅ 기본 원리:텍스트를 작은 조각(Chunk)으로 나누고 벡터 데이터베이스에 저장사용자가 질문하면 유사도가 가장 높은 텍스트 조각을 검색하여 답변 생성⚠️ 한계점:질문이 모호할 경우 정확한 정보 검색이 어려움단순 벡터 기반 매칭이라 문맥을 깊이 이해하는 능력이 부족2️⃣ RQ-RAG (질문 세분화 RAG) [Chan et al..

PDF에서 정보를 추출하려고 할 때...

PDF에서 정보를 추출하려면 고려해야할 사항, 그리고 관련된 툴들이 너무 다양합니다.  여기에 관련된 내용을 정리를 틈틈히 하려고 합니다.  최종 완성되면 완성되었다라고 표기를 하겠습니다. 그동안은 '작업 중' 글로 이해해 주세요. 목차: 1. PDF 텍스트 추출을 위한 라이브러리2. 인공지능 기반의 PDF, 이미지 처리 툴3. Base64 - 왜? 언제? 어떻게 ?  ✅ 문서 정보 추출 기법 개요현재 문서 정보 추출 기법은 크게 네 가지 주요 접근 방식으로 나눌 수 있다.✅ 1. OCR 기반 텍스트 추출✔ OCR (Optical Character Recognition) 모델을 사용하여 문서에서 직접 텍스트를 추출한다.✔ 텍스트 위주의 문서에서는 효과적이지만, 이미지, 표, 수식 등이 포함된 문서에서는 ..