25분
Blocking 전략: 후보 쌍 축소
Day 3: Blocking & Indexing 전략
Blocking 전략: 후보 쌍 축소
Entity Resolution & 데이터 통합 > Day 3: Blocking & Indexing 전략
학습 목표
주요 Blocking 전략의 원리를 이해한다 각 전략의 장단점을 파악한다
1. Standard Blocking
동일 블록 키 값끼리만 비교
에디터 로딩 중...
장점: 단순, 빠름 단점: 오타/누락에 취약 ("서울" vs "서울시")
2. Sorted Neighbourhood
정렬 후 인접 레코드만 비교
에디터 로딩 중...
에디터 로딩 중...
장점: 정렬 키에 가까운 레코드 비교 단점: 정렬 키 선택이 중요, 오타에 민감
3. Canopy Clustering
느슨한 클러스터링 기반
에디터 로딩 중...
장점: 동적으로 블록 생성 단점: T1, T2 튜닝 필요
4. LSH (Locality Sensitive Hashing)
해시 충돌을 이용한 블로킹
에디터 로딩 중...
장점: 매우 큰 데이터셋에 효과적 단점: 구현 복잡, 파라미터 튜닝
전략 비교
| 전략 | 장점 | 단점 | 적합한 경우 |
|---|---|---|---|
| Standard Blocking | 단순, 빠름 | 오타 취약 | 블록 키가 정확할 때 |
| Sorted Neighbourhood | 유사 레코드 포착 | 키 선택 중요 | 연속적 유사성 |
| Canopy | 동적 블록 | 튜닝 필요 | 블록 키 없을 때 |
| LSH | 대규모 가능 | 구현 복잡 | 수억 건 이상 |
Blocking Key 설계 팁
1. 오타에 강한 키
에디터 로딩 중...
2. 복합 키
에디터 로딩 중...
3. 다중 Blocking
에디터 로딩 중...
Reduction Ratio
블로킹으로 줄어든 비교 횟수 비율
에디터 로딩 중...
좋은 Blocking: RR > 0.99