20분
Pitfall: 임베딩 실수 5가지
Day 2: 임베딩 & 벡터 DB
Pitfall: 임베딩 실수 5가지
RAG 기초 > Day 2: 임베딩 & 벡터 DB
학습 목표
임베딩 관련 흔한 실수를 안다 각 실수의 해결 방법을 안다
Pitfall 1: 임베딩 모델 불일치 (가장 흔함!)
에디터 로딩 중...
증상: 검색 결과가 완전히 랜덤 해결: 저장/검색에 반드시 같은 모델
Pitfall 2: 텍스트 전처리 불일치
에디터 로딩 중...
증상: 유사도가 미묘하게 낮음 해결: 저장/검색에 같은 전처리
Pitfall 3: 너무 긴 텍스트
에디터 로딩 중...
증상: API 에러 또는 텍스트 잘림 해결: 8191 토큰 이하로 청킹
Pitfall 4: 빈 텍스트 / None
에디터 로딩 중...
증상: API 에러 해결: 빈 텍스트 필터링
에디터 로딩 중...
Pitfall 5: 차원 불일치
에디터 로딩 중...
증상: 차원 불일치 에러 해결: 인덱스 생성 시 모델 차원에 맞춤
체크리스트
| 점검 항목 | 확인 방법 |
|---|---|
| 임베딩 모델 일치? | 저장/검색 코드에서 같은 모델 확인 |
| 전처리 일치? | 저장/검색에 같은 전처리 적용 |
| 텍스트 길이? | 8191 토큰 이하 확인 |
| 빈 텍스트? | 필터링 확인 |
| 차원 일치? | 모델 차원 = 인덱스 차원 |
핵심 포인트
- • 임베딩 모델: 저장/검색에 반드시 같은 모델
- • 전처리: 저장/검색에 같은 방식 적용
- • 텍스트 길이: 8191 토큰 이하