20

Pitfall: 임베딩 실수 5가지

Day 2: 임베딩 & 벡터 DB

학습 목표

임베딩 관련 흔한 실수를 안다 각 실수의 해결 방법을 안다

Pitfall 1: 임베딩 모델 불일치 (가장 흔함!)

에디터 로딩 중...

증상: 검색 결과가 완전히 랜덤 해결: 저장/검색에 반드시 같은 모델


Pitfall 2: 텍스트 전처리 불일치

에디터 로딩 중...

증상: 유사도가 미묘하게 낮음 해결: 저장/검색에 같은 전처리


Pitfall 3: 너무 긴 텍스트

에디터 로딩 중...

증상: API 에러 또는 텍스트 잘림 해결: 8191 토큰 이하로 청킹


Pitfall 4: 빈 텍스트 / None

에디터 로딩 중...

증상: API 에러 해결: 빈 텍스트 필터링

에디터 로딩 중...

Pitfall 5: 차원 불일치

에디터 로딩 중...

증상: 차원 불일치 에러 해결: 인덱스 생성 시 모델 차원에 맞춤


체크리스트

점검 항목확인 방법
임베딩 모델 일치?저장/검색 코드에서 같은 모델 확인
전처리 일치?저장/검색에 같은 전처리 적용
텍스트 길이?8191 토큰 이하 확인
빈 텍스트?필터링 확인
차원 일치?모델 차원 = 인덱스 차원
핵심 포인트
  • 임베딩 모델: 저장/검색에 반드시 같은 모델
  • 전처리: 저장/검색에 같은 방식 적용
  • 텍스트 길이: 8191 토큰 이하