25

Why: 청킹이 RAG 성능을 결정한다

Day 3: 청킹 전략 & 검색 최적화

학습 목표

청킹이 검색 품질에 미치는 영향을 이해한다 Lost in the Middle 현상을 안다 최적 청크 크기의 기준을 안다

청킹이 RAG 전체 성능을 결정한다

에디터 로딩 중...

청킹이 잘못되면:

  1. 임베딩 품질 저하 (너무 크면 의미 희석)
  2. 검색 정확도 저하 (관련없는 내용 포함)
  3. LLM 응답 품질 저하 (노이즈 많음)

청크 크기가 임베딩에 미치는 영향

에디터 로딩 중...

Lost in the Middle (2023 스탠포드 연구)

LLM은 긴 컨텍스트의 중간 부분을 무시하는 경향이 있습니다.

에디터 로딩 중...

최적의 청크 크기 (Pinecone Research 2023)

에디터 로딩 중...

결론: 512 토큰 (~2,000자 한국어)이 대부분 최적


문서 유형별 권장 청크 크기

문서 유형청크 크기Overlap이유
기술 문서500~1000자10%개념 단위 보존
FAQ질문+답변 쌍0%의미 단위 보존
법률 문서1000~2000자10%조항 단위 보존
대화 로그200~500자10%짧은 발화 단위
코드함수 단위0%논리적 단위

Overlap의 역할

에디터 로딩 중...

권장 Overlap: 청크 크기의 10% (500자면 50자)

핵심 포인트
  • 청킹 품질 = RAG 전체 품질
  • Lost in the Middle: LLM은 긴 텍스트 중간 무시
  • 최적 청크: 512토큰(~2000자), Overlap 10%