앱개발 13

📘 RAG에서 문서 청크와 KV 캐시, 벡터 임베딩은 어떻게 다를까?

Retrieval-Augmented Generation 시스템을 좀 아는 분들을 위한 개념 정리 Q&A❓ Q1. 문서 청크별 Key-Value (KV) 캐시란 무엇인가요?RAG 시스템에서 "문서 청크별 KV 캐시"가 어떤 개념인지 비전문가가 이해할 수 있게 설명해 주세요.✅ A1.문서 청크별 Key-Value 캐시는, 문서를 미리 잘게 나눈 후 각 조각(청크)에 대해 **언어 모델이 내부적으로 처리할 정보(Attention 계산용 Key, Value 행렬)**를 미리 계산해 저장해 두는 방식입니다.기존 RAG 시스템은 사용자가 질문을 던질 때마다 관련 문서를 검색하고, 그때마다 문서를 LLM에 넣어 일일이 계산을 해야 해서 시간이 오래 걸립니다. 반면 KV 캐시는 미리 계산해둔 결과를 즉시 불러와 사용하..

앱개발 2025.04.19

Streamlit vs Shiny for Python: LLM 에이전트 개발에 더 유연한 선택은?

Shiny for Python은 최근 많이 주목받고 있고, 특히 복잡한 인터랙티브 UI 구성에 강점이 있어서 LLM 기반 에이전트 인터페이스에도 적합할 수 있어요.하지만 비교는 단순하지 않아요. 그래서 아래와 같이 LLM 기반 앱 개발 관점에서 Streamlit과 Shiny for Python을 정면 비교해드릴게요.🤖 비교 기준: "LLM 기반 에이전트를 구축할 때 어떤 프레임워크가 더 좋은가?" 항목StreamlitShiny for Python✅ LLM API 연동매우 쉬움 (requests, openai, langchain, llama-index 등 생태계 풍부)가능하지만 직접 처리 위주✅ 상태 관리st.session_state로 직관적이고 간단reactive.Var, reactive.Value 등..

앱개발 2025.04.02

PDF 파서- google gemini deep research

PDF에서 표와 그림을 가장 잘 추출하는 오픈 소스 도구 보고서서론기하급수적으로 증가하는 데이터의 양 중에서 PDF 형식으로 저장된 정보의 비중은 상당합니다. 이러한 PDF 문서에서 표와 그림 같은 구조화된 정보와 시각적 요소를 프로그래밍 방식으로 추출하는 것은 데이터 분석, 정보 검색, 자동화된 문서 처리 등 다양한 분야에서 매우 중요한 과제입니다. 그러나 PDF 파일은 주로 시각적 표현을 위해 설계되었기 때문에, 표와 그림에 대한 명확한 의미론적 정보나 구조적 메타데이터가 부족하여 자동화된 추출이 본질적으로 어렵습니다 1. 다양한 테이블 레이아웃과 그림의 복잡성은 이러한 어려움을 더욱 가중시킵니다 1.이러한 과제를 해결하기 위해 오픈 소스 솔루션을 활용하는 것은 여러 가지 중요한 이점을 제공합니다 5..

앱개발 2025.03.28

PDF 파서 - grok3를 이용한 deep research

Key PointsPDF에서 표와 그림을 추출하는 데 가장 적합한 도구는 목적에 따라 다르지만, 표 추출에는 Tabula, Parseur, Nanonets가, 그림(이미지) 추출에는 PDF Candy, Adobe Acrobat이 효과적일 가능성이 높습니다.단일 도구가 표와 그림을 모두 완벽하게 추출하는 것은 드물며, 종종 별도의 도구를 조합해 사용하는 것이 필요할 수 있습니다.AI 모델과 OCR 기술은 특히 스캔된 PDF에서 텍스트 추출에 유용하며, Tesseract OCR, Amazon Textract 등이 추천됩니다.도구 및 라이브러리 추천표 추출을 위한 도구:Tabula는 오픈소스 도구로, PDF에서 표를 CSV나 Excel로 추출하는 데 적합합니다 (Tabula).Parseur는 AI 기반으로 표..

앱개발 2025.03.28