20

지도 학습 기반 Entity Resolution

Day 4: ML 기반 Entity Resolution

학습 목표

지도 학습 ER의 워크플로우를 이해한다 적합한 분류 알고리즘을 선택할 수 있다

지도 학습 ER 워크플로우

에디터 로딩 중...

Feature Engineering

입력: 레코드 쌍 출력: 유사도 벡터

에디터 로딩 중...

분류 알고리즘 선택

알고리즘장점단점적합한 경우
Logistic Regression빠름, 해석 가능비선형 패턴 X베이스라인
Random Forest비선형, 안정적블랙박스일반적 상황
XGBoost높은 정확도튜닝 필요복잡한 데이터
SVM고차원에 강함대규모 느림피처 많을 때
Neural Network복잡한 패턴데이터 많이 필요대규모

recordlinkage 지도 학습

에디터 로딩 중...

sklearn 사용

에디터 로딩 중...

문제: 레이블 데이터가 없다!

현실:

  • 수백만 쌍 중 어떤 것이 매칭인지 모름
  • 사람이 일일이 레이블링? → 비용 & 시간

해결책: Active Learning