2025/05 6

🤖 대형 언어 모델을 진화시키는 법: Instruction부터 Reinforcement까지, 주요 학습 기법 총정리

최근 발표된 DeepSeek-VL, DeepSeek-Coder, DeepSeek R1 등 최신 모델 개발 트렌드는 단순한 학습 기법 나열이 아닌, 단계별 설계 흐름에 맞춘 학습 전략의 조합을 따릅니다. 특히 DeepSeek R1의 경우, 사전학습 → 슈퍼바이즈드 파인튜닝 → 보상 기반 강화학습의 순서로 구성되며, 각 단계에 필요한 학습 기법들이 체계적으로 배치됩니다.🧠 DeepSeek R1 모델 개발 과정에서의 학습 전략 구조📌 개요: R1 또는 GPT-4/Claude 계열 LLM의 일반적 구성[ Pretraining ] → [ Supervised Fine-Tuning ] → [ Reward Modeling ] → [ Reinforcement Fine-Tuning ] ..

카테고리 없음 2025.05.29

🔍 "LLM을 더 똑똑하게 만드는 법: Instruction 기반 학습을 위한 데이터셋 총정리"

📌 요약대형 언어 모델(LLM)이 실제 사용자의 질문에 유용한 답변을 제공하려면, 다양한 태스크에 최적화된 학습이 필요합니다. 그 중심에는 Instruction-based Retrieval 데이터셋이 있습니다. 이 글에서는 질문응답부터 요약, 패러프레이징, 코드 검색까지 대표적인 13개 데이터셋의 특성과 다운로드 링크, 라이선스 정보를 정리합니다.✅ 1. Question Answering 데이터셋설명다운로드 링크라이선스 SQuAD (v1.1/v2) 위키피디아 기반 정답 span 추출형 QA SQuAD v2 CC BY-SA 4.0 HotpotQA 다중 문단 추론형 질문 포함 HotpotQA ..

[데이터마이닝] PubMed에 대한 새로운 관련성 검색- Best Match

참고문헌:Best Match: New relevance search for PubMedhttps://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.2005343📚 연구 개요배경: PubMed는 매일 수백만 명이 사용하는 생의학 문헌 검색엔진으로, 기존에는 단순히 최신순(Date sort) 정렬이 기본이었다.문제점: 사용자의 검색 의도를 정확히 반영하지 못하고, 관련성이 낮은 문서가 상위에 노출될 수 있었다.목적: 이를 해결하기 위해 Best Match라는 machine learning 기반의 relevance ranking 알고리즘을 개발함.🔍 핵심 내용 요약1. Best Match의 아키텍처Two-stage ranking1단계: BM2..

앱개발 2025.05.22

원발성 면역 혈소판 감소증(ITP) 진단 바이오마커로서 microRNA-199a-5p의 잠재력

https://onlinelibrary.wiley.com/doi/10.1111/bjh.19987 원발성 면역 혈소판 감소증(ITP) 진단 바이오마커로서 microRNA-199a-5p의 잠재력에 대한 브리핑 문서출처: Br J Haematol - 2025 - Garabet - MicroRNA‐199a‐5p may be a diagnostic biomarker of primary ITP.pdf개요:원발성 면역 혈소판 감소증(ITP)의 진단 바이오마커로서 특정 microRNA(miRNA)의 잠재력을 조사한 "MicroRNA- 199a- 5p may be a diagnostic biomarker of primary ITP" 연구 결과에 대한 요약입니다. 현재 ITP에 대한 특정한 진단 테스트가 없다는 문제점을 ..

논문리뷰 2025.05.16

LangGraph를 활용한 고급 RAG 아키텍처

기술 백서LangGraph를 활용한 고급 RAG 아키텍처: 최신 전략과 응용1. 서론검색 증강 생성(Retrieval-Augmented Generation, RAG)은 대규모 언어 모델(LLM)과 정보 검색 기술을 결합하여 지식 기반 응답 생성을 가능케 하는 혁신적 기술이다. 하지만 현실 세계에서 RAG의 구현은 복잡한 분기, 반복, 쿼리 최적화 등의 요소가 필수적이며, 기존 선형 구조 기반 시스템은 이를 충분히 감당하기 어렵다.LangGraph는 이러한 요구에 부합하는 그래프 기반 프레임워크로, LLM 중심 워크플로를 상태 기반 시스템으로 시각화하고, 제어 흐름과 상태 관리를 명시적으로 설계할 수 있는 유연한 환경을 제공한다.본 기술백서에서는 LangGraph를 이용한 고급 RAG 아키텍처 설계 전략과..

앱개발 2025.05.11

앱개발 (17) Docling으로 논문에서 Figure를 추출

🔍 Docling으로 논문에서 Figure를 추출할 때 자주 묻는 질문 (Q&A)최근 PDF 기반 논문에서 유의미한 정보를 효과적으로 추출하고, Retrieval-Augmented Generation(RAG) 시스템에 통합하는 방법에 대해 많은 관심이 높아지고 있습니다. 특히 의학 연구 논문에서는 figure에 중요한 데이터가 포함되어 있어, 단순한 텍스트 중심의 접근만으로는 정보 누락이 발생하기 쉽습니다.이에 따라 Docling 프로젝트는 PDF에서 표(table), 그림(figure) 등을 자동으로 추출하고 구조화된 데이터로 저장하는 기능을 제공합니다.본 글에서는 Docling의 figure 추출 기능에 대해 직접 실험하고 고민했던 내용을 Q&A 형식으로 정리합니다. 실무 적용이나 RAG 파이프라인..

앱개발 2025.05.08