40

실습: dedupe 라이브러리로 Active Learning ER

Day 4: ML 기반 Entity Resolution

학습 목표

dedupe 라이브러리의 워크플로우를 이해한다 Active Learning 기반 ER을 구현할 수 있다

미션: dedupe로 고객 중복 제거

dedupe 라이브러리는 Active Learning 기반 ER을 위한 전문 라이브러리다. 실제로 사용해보자.

dedupe 특징

  • Interactive 레이블링 지원
  • Active Learning 자동 적용
  • Blocking 자동 최적화
  • 프로덕션 배포 가능

주의

  • 실제 dedupe는 터미널에서 대화형으로 레이블링
  • 이 실습에서는 자동 레이블링으로 대체
에디터 로딩 중...
힌트 보기
  • np.abs(prob - 0.5)로 불확실성 계산
  • labeled_mask로 레이블된 샘플 추적
  • 매 iteration마다 모델 재학습
정답 보기
에디터 로딩 중...