왜 내가 업로드한 pdf 문서에서 원하는 답이 잘 추출되지 않을까? 정확하게 추출하려면 어떻게 해야할까? RAG-LLM (Retrieval-Augmented Generation for Language Models) 모델을 사용하여 데이터에서 원하는 답을 얻는 과정의 아키텍쳐에는 지식에 해당하는 문서를 사전에 vector database에 임베딩을 해두어야한다. 하지만 효율적인 retrieval을 위해서는 임베딩전 문서를 여러 조각 (chunk) 으로 나누는 텍스트 splitting을 시행하게된다. 정확한 지식기반 LLM을 위해서는 텍스트 splitting 전략 또한 매우 중요하다. 텍스트를 얼마만한 조각으로 나눌지 (chunk size), 조각끼리 얼마나 겹치게 할지 (chunk overlap), 문서의..