전체 글 100

🤖 대형 언어 모델을 진화시키는 법: Instruction부터 Reinforcement까지, 주요 학습 기법 총정리

최근 발표된 DeepSeek-VL, DeepSeek-Coder, DeepSeek R1 등 최신 모델 개발 트렌드는 단순한 학습 기법 나열이 아닌, 단계별 설계 흐름에 맞춘 학습 전략의 조합을 따릅니다. 특히 DeepSeek R1의 경우, 사전학습 → 슈퍼바이즈드 파인튜닝 → 보상 기반 강화학습의 순서로 구성되며, 각 단계에 필요한 학습 기법들이 체계적으로 배치됩니다.🧠 DeepSeek R1 모델 개발 과정에서의 학습 전략 구조📌 개요: R1 또는 GPT-4/Claude 계열 LLM의 일반적 구성[ Pretraining ] → [ Supervised Fine-Tuning ] → [ Reward Modeling ] → [ Reinforcement Fine-Tuning ] ..

카테고리 없음 2025.05.29

🔍 "LLM을 더 똑똑하게 만드는 법: Instruction 기반 학습을 위한 데이터셋 총정리"

📌 요약대형 언어 모델(LLM)이 실제 사용자의 질문에 유용한 답변을 제공하려면, 다양한 태스크에 최적화된 학습이 필요합니다. 그 중심에는 Instruction-based Retrieval 데이터셋이 있습니다. 이 글에서는 질문응답부터 요약, 패러프레이징, 코드 검색까지 대표적인 13개 데이터셋의 특성과 다운로드 링크, 라이선스 정보를 정리합니다.✅ 1. Question Answering 데이터셋설명다운로드 링크라이선스 SQuAD (v1.1/v2) 위키피디아 기반 정답 span 추출형 QA SQuAD v2 CC BY-SA 4.0 HotpotQA 다중 문단 추론형 질문 포함 HotpotQA ..

[데이터마이닝] PubMed에 대한 새로운 관련성 검색- Best Match

참고문헌:Best Match: New relevance search for PubMedhttps://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.2005343📚 연구 개요배경: PubMed는 매일 수백만 명이 사용하는 생의학 문헌 검색엔진으로, 기존에는 단순히 최신순(Date sort) 정렬이 기본이었다.문제점: 사용자의 검색 의도를 정확히 반영하지 못하고, 관련성이 낮은 문서가 상위에 노출될 수 있었다.목적: 이를 해결하기 위해 Best Match라는 machine learning 기반의 relevance ranking 알고리즘을 개발함.🔍 핵심 내용 요약1. Best Match의 아키텍처Two-stage ranking1단계: BM2..

앱개발 2025.05.22

원발성 면역 혈소판 감소증(ITP) 진단 바이오마커로서 microRNA-199a-5p의 잠재력

https://onlinelibrary.wiley.com/doi/10.1111/bjh.19987 원발성 면역 혈소판 감소증(ITP) 진단 바이오마커로서 microRNA-199a-5p의 잠재력에 대한 브리핑 문서출처: Br J Haematol - 2025 - Garabet - MicroRNA‐199a‐5p may be a diagnostic biomarker of primary ITP.pdf개요:원발성 면역 혈소판 감소증(ITP)의 진단 바이오마커로서 특정 microRNA(miRNA)의 잠재력을 조사한 "MicroRNA- 199a- 5p may be a diagnostic biomarker of primary ITP" 연구 결과에 대한 요약입니다. 현재 ITP에 대한 특정한 진단 테스트가 없다는 문제점을 ..

논문리뷰 2025.05.16

LangGraph를 활용한 고급 RAG 아키텍처

기술 백서LangGraph를 활용한 고급 RAG 아키텍처: 최신 전략과 응용1. 서론검색 증강 생성(Retrieval-Augmented Generation, RAG)은 대규모 언어 모델(LLM)과 정보 검색 기술을 결합하여 지식 기반 응답 생성을 가능케 하는 혁신적 기술이다. 하지만 현실 세계에서 RAG의 구현은 복잡한 분기, 반복, 쿼리 최적화 등의 요소가 필수적이며, 기존 선형 구조 기반 시스템은 이를 충분히 감당하기 어렵다.LangGraph는 이러한 요구에 부합하는 그래프 기반 프레임워크로, LLM 중심 워크플로를 상태 기반 시스템으로 시각화하고, 제어 흐름과 상태 관리를 명시적으로 설계할 수 있는 유연한 환경을 제공한다.본 기술백서에서는 LangGraph를 이용한 고급 RAG 아키텍처 설계 전략과..

앱개발 2025.05.11

앱개발 (17) Docling으로 논문에서 Figure를 추출

🔍 Docling으로 논문에서 Figure를 추출할 때 자주 묻는 질문 (Q&A)최근 PDF 기반 논문에서 유의미한 정보를 효과적으로 추출하고, Retrieval-Augmented Generation(RAG) 시스템에 통합하는 방법에 대해 많은 관심이 높아지고 있습니다. 특히 의학 연구 논문에서는 figure에 중요한 데이터가 포함되어 있어, 단순한 텍스트 중심의 접근만으로는 정보 누락이 발생하기 쉽습니다.이에 따라 Docling 프로젝트는 PDF에서 표(table), 그림(figure) 등을 자동으로 추출하고 구조화된 데이터로 저장하는 기능을 제공합니다.본 글에서는 Docling의 figure 추출 기능에 대해 직접 실험하고 고민했던 내용을 Q&A 형식으로 정리합니다. 실무 적용이나 RAG 파이프라인..

앱개발 2025.05.08

📘 RAG에서 문서 청크와 KV 캐시, 벡터 임베딩은 어떻게 다를까?

Retrieval-Augmented Generation 시스템을 좀 아는 분들을 위한 개념 정리 Q&A❓ Q1. 문서 청크별 Key-Value (KV) 캐시란 무엇인가요?RAG 시스템에서 "문서 청크별 KV 캐시"가 어떤 개념인지 비전문가가 이해할 수 있게 설명해 주세요.✅ A1.문서 청크별 Key-Value 캐시는, 문서를 미리 잘게 나눈 후 각 조각(청크)에 대해 **언어 모델이 내부적으로 처리할 정보(Attention 계산용 Key, Value 행렬)**를 미리 계산해 저장해 두는 방식입니다.기존 RAG 시스템은 사용자가 질문을 던질 때마다 관련 문서를 검색하고, 그때마다 문서를 LLM에 넣어 일일이 계산을 해야 해서 시간이 오래 걸립니다. 반면 KV 캐시는 미리 계산해둔 결과를 즉시 불러와 사용하..

앱개발 2025.04.19

Streamlit vs Shiny for Python: LLM 에이전트 개발에 더 유연한 선택은?

Shiny for Python은 최근 많이 주목받고 있고, 특히 복잡한 인터랙티브 UI 구성에 강점이 있어서 LLM 기반 에이전트 인터페이스에도 적합할 수 있어요.하지만 비교는 단순하지 않아요. 그래서 아래와 같이 LLM 기반 앱 개발 관점에서 Streamlit과 Shiny for Python을 정면 비교해드릴게요.🤖 비교 기준: "LLM 기반 에이전트를 구축할 때 어떤 프레임워크가 더 좋은가?" 항목StreamlitShiny for Python✅ LLM API 연동매우 쉬움 (requests, openai, langchain, llama-index 등 생태계 풍부)가능하지만 직접 처리 위주✅ 상태 관리st.session_state로 직관적이고 간단reactive.Var, reactive.Value 등..

앱개발 2025.04.02