20분
Blocking 품질 평가 지표
Day 3: Blocking & Indexing 전략
Blocking 품질 평가 지표
Entity Resolution & 데이터 통합 > Day 3: Blocking & Indexing 전략
학습 목표
Blocking 품질 평가 지표를 이해한다 Reduction Ratio와 Pairs Quality의 트레이드오프를 파악한다
Blocking 평가 지표
1. Reduction Ratio (RR)
비교 횟수 감소 비율
에디터 로딩 중...
2. Pairs Completeness (PC)
실제 매칭 쌍 중 Blocking으로 포함된 비율
에디터 로딩 중...
PC가 낮으면:
- Blocking이 너무 엄격
- 실제 매칭을 놓침 (False Negative)
3. Pairs Quality (PQ)
후보 쌍 중 실제 매칭 비율
에디터 로딩 중...
PQ가 낮으면:
- 불필요한 비교가 많음
- 후속 비교 단계 부담
트레이드오프
에디터 로딩 중...
F-Score로 균형 평가
에디터 로딩 중...
Python 구현
에디터 로딩 중...
실무 가이드라인
| 데이터 규모 | 목표 RR | 목표 PC |
|---|---|---|
| 1만 건 미만 | 0.9+ | 1.0 |
| 1만~100만 | 0.99+ | 0.99+ |
| 100만+ | 0.999+ | 0.95+ |
대규모 데이터일수록:
- RR 더 중요 (계산 가능해야 함)
- PC 약간 희생 가능 (후처리로 보완)
다중 Blocking으로 PC 높이기
에디터 로딩 중...