40분
How: 청킹 전략 5가지
Day 3: 청킹 전략 & 검색 최적화
How: 청킹 전략 5가지
RAG 기초 > Day 3: 청킹 전략 & 검색 최적화
학습 목표
5가지 청킹 전략을 구현할 수 있다 상황에 맞는 청킹 전략을 선택할 수 있다
청킹 전략 5가지
1. 고정 크기 (CharacterTextSplitter)
- 가장 단순, 문장 중간에서 잘릴 수 있음
2. 재귀적 (RecursiveCharacterTextSplitter)
- 단락 → 문장 → 단어 순으로 분할
- 가장 범용적, 95% 상황에서 추천
3. 마크다운 헤더 기반 (MarkdownHeaderTextSplitter)
- 마크다운 문서에 최적
- 헤더 메타데이터 자동 추출
4. 의미적 (SemanticChunker)
- 의미가 바뀌는 곳에서 분할
- 품질 최고, 속도 느림, 비용 높음
5. 코드 특화 (from_language)
- 함수/클래스 단위 분할
- 언어별 최적화
미션
각 전략으로 같은 문서를 청킹하고 결과 비교하세요.
에디터 로딩 중...
힌트 보기
- • RecursiveCharacterTextSplitter의 separators는 우선순위 순서
- • MarkdownHeaderTextSplitter는 Document 객체 반환 (metadata 포함)
정답 보기
에디터 로딩 중...