25분
Why: 청킹이 RAG 성능을 결정한다
Day 3: 청킹 전략 & 검색 최적화
Why: 청킹이 RAG 성능을 결정한다
RAG 기초 > Day 3: 청킹 전략 & 검색 최적화
학습 목표
청킹이 검색 품질에 미치는 영향을 이해한다 Lost in the Middle 현상을 안다 최적 청크 크기의 기준을 안다
청킹이 RAG 전체 성능을 결정한다
에디터 로딩 중...
청킹이 잘못되면:
- 임베딩 품질 저하 (너무 크면 의미 희석)
- 검색 정확도 저하 (관련없는 내용 포함)
- LLM 응답 품질 저하 (노이즈 많음)
청크 크기가 임베딩에 미치는 영향
에디터 로딩 중...
Lost in the Middle (2023 스탠포드 연구)
LLM은 긴 컨텍스트의 중간 부분을 무시하는 경향이 있습니다.
에디터 로딩 중...
최적의 청크 크기 (Pinecone Research 2023)
에디터 로딩 중...
결론: 512 토큰 (~2,000자 한국어)이 대부분 최적
문서 유형별 권장 청크 크기
| 문서 유형 | 청크 크기 | Overlap | 이유 |
|---|---|---|---|
| 기술 문서 | 500~1000자 | 10% | 개념 단위 보존 |
| FAQ | 질문+답변 쌍 | 0% | 의미 단위 보존 |
| 법률 문서 | 1000~2000자 | 10% | 조항 단위 보존 |
| 대화 로그 | 200~500자 | 10% | 짧은 발화 단위 |
| 코드 | 함수 단위 | 0% | 논리적 단위 |
Overlap의 역할
에디터 로딩 중...
권장 Overlap: 청크 크기의 10% (500자면 50자)
핵심 포인트
- • 청킹 품질 = RAG 전체 품질
- • Lost in the Middle: LLM은 긴 텍스트 중간 무시
- • 최적 청크: 512토큰(~2000자), Overlap 10%