25

Blocking 전략: 후보 쌍 축소

Day 3: Blocking & Indexing 전략

학습 목표

주요 Blocking 전략의 원리를 이해한다 각 전략의 장단점을 파악한다

1. Standard Blocking

동일 블록 키 값끼리만 비교

에디터 로딩 중...

장점: 단순, 빠름 단점: 오타/누락에 취약 ("서울" vs "서울시")


2. Sorted Neighbourhood

정렬 후 인접 레코드만 비교

에디터 로딩 중...
에디터 로딩 중...

장점: 정렬 키에 가까운 레코드 비교 단점: 정렬 키 선택이 중요, 오타에 민감


3. Canopy Clustering

느슨한 클러스터링 기반

에디터 로딩 중...

장점: 동적으로 블록 생성 단점: T1, T2 튜닝 필요


4. LSH (Locality Sensitive Hashing)

해시 충돌을 이용한 블로킹

에디터 로딩 중...

장점: 매우 큰 데이터셋에 효과적 단점: 구현 복잡, 파라미터 튜닝


전략 비교

전략장점단점적합한 경우
Standard Blocking단순, 빠름오타 취약블록 키가 정확할 때
Sorted Neighbourhood유사 레코드 포착키 선택 중요연속적 유사성
Canopy동적 블록튜닝 필요블록 키 없을 때
LSH대규모 가능구현 복잡수억 건 이상

Blocking Key 설계 팁

1. 오타에 강한 키

에디터 로딩 중...

2. 복합 키

에디터 로딩 중...

3. 다중 Blocking

에디터 로딩 중...

Reduction Ratio

블로킹으로 줄어든 비교 횟수 비율

에디터 로딩 중...

좋은 Blocking: RR > 0.99