35분
실습: Blocking 최적화 & 품질 평가
Day 3: Blocking & Indexing 전략
실습: Blocking 최적화 & 품질 평가
Entity Resolution & 데이터 통합 > Day 3: Blocking & Indexing 전략
학습 목표
Blocking 품질 지표를 계산할 수 있다 다양한 전략을 비교하여 최적 설정을 찾을 수 있다
미션: 최적 Blocking 전략 찾기
레이블된 데이터를 사용하여 Blocking 품질을 평가하고 최적의 전략을 찾아라.
요구사항
- 여러 Blocking 전략 테스트
- RR, PC, PQ, F-Score 계산
- 최적 전략 선택 및 근거 제시
에디터 로딩 중...
힌트 보기
- • candidate_pairs.intersection(true_matches)로 교집합 계산
- • pd.MultiIndex.from_tuples()로 정답 레이블 생성
- • pairs1.union(pairs2)로 합집합
정답 보기
에디터 로딩 중...