대규모 데이터를 위한 Blocking 기법 | Entity Resolution & 데이터 통합 | FDE Academy

대규모 데이터의 도전

문제: 1억 건 x 1억 건 = 1경 쌍

Standard Blocking으로 99.9% 줄여도:

에디터 로딩 중...

복합 키 (Compound Key)

에디터 로딩 중...

위험: 키 하나라도 오류 시 누락

유사한 항목은 높은 확률로 같은 버킷에 해시

에디터 로딩 중...

Jaccard 유사도 추정용

에디터 로딩 중...

Cosine 유사도 기반 (텍스트 중복 탐지)

에디터 로딩 중...

Spark에서 Blocking

에디터 로딩 중...

에디터 로딩 중...

장점:

단점: