40분
실습: dedupe 라이브러리로 Active Learning ER
Day 4: ML 기반 Entity Resolution
실습: dedupe 라이브러리로 Active Learning ER
Entity Resolution & 데이터 통합 > Day 4: ML 기반 Entity Resolution
학습 목표
dedupe 라이브러리의 워크플로우를 이해한다 Active Learning 기반 ER을 구현할 수 있다
미션: dedupe로 고객 중복 제거
dedupe 라이브러리는 Active Learning 기반 ER을 위한 전문 라이브러리다. 실제로 사용해보자.
dedupe 특징
- Interactive 레이블링 지원
- Active Learning 자동 적용
- Blocking 자동 최적화
- 프로덕션 배포 가능
주의
- 실제 dedupe는 터미널에서 대화형으로 레이블링
- 이 실습에서는 자동 레이블링으로 대체
에디터 로딩 중...
힌트 보기
- • np.abs(prob - 0.5)로 불확실성 계산
- • labeled_mask로 레이블된 샘플 추적
- • 매 iteration마다 모델 재학습
정답 보기
에디터 로딩 중...