🏆40분
Challenge: 커스텀 Blocking 전략 설계
Day 3: Blocking & Indexing 전략
Challenge: 커스텀 Blocking 전략 설계
Entity Resolution & 데이터 통합 > Day 3: Blocking & Indexing 전략
학습 목표
실제 데이터 특성에 맞는 커스텀 Blocking 전략을 설계할 수 있다 RR과 PC의 최적 균형점을 찾을 수 있다
요구사항
주어진 데이터 특성 분석
3가지 이상 Blocking 전략 설계
RR > 95%, PC > 95% 동시 달성
최적 전략 선택 및 근거 제시
평가 기준
- • 데이터 특성 분석이 적절한가?
- • Blocking 전략이 창의적인가?
- • 목표 지표를 달성했는가?
- • 근거가 명확한가?
보너스
- • 음성 기반 Blocking (Soundex 적용)
- • Phonetic 유사도 기반 Blocking
- • 임베딩 기반 Blocking 프로토타입
힌트 보기
전화번호 앞 자리로 Blocking하면 정확도 높음 NULL 값 처리를 위한 별도 블록 고려 Multi-Block으로 누락 보완