25분
Why: 임베딩이 의미를 이해하는 원리
Day 2: 임베딩 & 벡터 DB
Why: 임베딩이 의미를 이해하는 원리
RAG 기초 > Day 2: 임베딩 & 벡터 DB
학습 목표
임베딩의 개념을 이해한다 코사인 유사도를 이해한다 임베딩이 의미를 표현하는 원리를 안다
임베딩이란?
임베딩 = 텍스트를 고정 길이 숫자 벡터로 변환하는 기술
에디터 로딩 중...
핵심: 의미가 비슷한 텍스트는 비슷한 벡터를 가집니다.
임베딩의 놀라운 성질
1. 의미 유사도
에디터 로딩 중...
2. 벡터 연산 = 의미 연산
에디터 로딩 중...
코사인 유사도
두 벡터가 얼마나 같은 방향을 가리키는지 측정합니다.
에디터 로딩 중...
에디터 로딩 중...
임베딩 모델 비교
| 모델 | 차원 | 성능 | 속도 | 가격 |
|---|---|---|---|---|
| text-embedding-3-small | 1536 | Good | Fast | $0.02/1M 토큰 |
| text-embedding-3-large | 3072 | Best | Medium | $0.13/1M 토큰 |
| all-MiniLM-L6-v2 | 384 | OK | Fastest | Free |
| BGE-m3 | 1024 | Great | Medium | Free |
실무 팁: 시작은 OpenAI text-embedding-3-small, 비용 절감 시 오픈소스 모델로 전환
왜 1536차원일까?
에디터 로딩 중...
시뮬레이터
핵심 포인트
- • 임베딩 = 텍스트를 고정 길이 숫자 벡터로 변환
- • 의미가 비슷하면 벡터도 비슷 (코사인 유사도)
- • 벡터 연산으로 의미 연산 가능 (King-Man+Woman=Queen)