RAG Ingest

RAG Ingest는 문서를 검색 가능한 벡터 데이터로 만드는 전체 처리 흐름입니다.

전체 흐름

ingest 요청 수신
문서 수집
업로드 파일, 원문 텍스트, 원격 저장소 콘텐츠를 수집
정규화 확장자 변환, 텍스트 정리, 불필요 태그 제거
chunking 검색 효율을 위해 chunk 단위로 분할
임베딩 생성
벡터 저장
검색 인덱스 갱신

상태 전이

pending: 작업 생성, 시작 전
processing: 파싱/임베딩 진행 중
indexing: 벡터 반영 진행
completed: 완료
failed: 실패, 오류 메시지/스택 보존

품질 기준

chunk 크기: 과도하면 컨텍스트 손실, 작으면 토큰 비용 증가
overlap: 단락 경계를 침범하지 않도록 적절한 중복 허용
embedding timeout: 길이/형태별 임계치 설정
벡터 유사도 임계값: 검색 품질과 정확도 균형 조정

운영 체크리스트

같은 문서의 중복 업로드는 지문(hash) 기반 dedupe 권장
작업 실패 시 원본 본문과 파서/임베더 로그를 함께 보관
주기적으로 orphan chunk(원본 삭제 후 미반영 청크) 정리
문서 삭제 시 벡터 행 삭제를 트랜잭션 단위로 처리

재색인 정책

스키마 변경/임베딩 모델 변경 시 전체 재색인을 고려
대량 업데이트는 배치 처리 후 점진적 교체(blue-green) 방식 추천