15분
Pitfall: 청킹 실수 5가지
Day 3: 청킹 전략 & 검색 최적화
Pitfall: 청킹 실수 5가지
RAG 기초 > Day 3: 청킹 전략 & 검색 최적화
학습 목표
청킹 관련 흔한 실수를 안다 각 실수의 해결 방법을 안다
Pitfall 1: 청크가 너무 큼
에디터 로딩 중...
증상: 검색 결과에 관련없는 내용 많음 해결: 500~1000자로 줄이기
Pitfall 2: Overlap 없음
에디터 로딩 중...
증상: 청크 경계에서 문맥 단절 해결: chunk_size의 10% overlap
Pitfall 3: 문장 중간에서 잘림
에디터 로딩 중...
증상: 문장이 불완전 해결: RecursiveCharacterTextSplitter 사용
Pitfall 4: 모든 문서에 같은 전략
에디터 로딩 중...
증상: 특정 문서 유형에서 검색 품질 저하 해결: 문서 유형별 전략 분리
Pitfall 5: 메타데이터 누락
에디터 로딩 중...
증상: 검색 결과의 출처를 알 수 없음 해결: 항상 메타데이터 포함
에디터 로딩 중...
청킹 체크리스트
| 점검 항목 | 확인 방법 |
|---|---|
| 청크 크기 적절? | 500~1000자 확인 |
| Overlap 설정? | 10% 확인 |
| 문장 완전? | 청크 내용 출력해서 확인 |
| 문서별 전략? | FAQ/코드/일반 분리 |
| 메타데이터? | source, page 포함 |
핵심 포인트
- • 청크 크기: 500~1000자
- • Overlap: 10%
- • 전략: 문서 유형별 분리
- • 메타데이터: 항상 포함