20분
지도 학습 기반 Entity Resolution
Day 4: ML 기반 Entity Resolution
지도 학습 기반 Entity Resolution
Entity Resolution & 데이터 통합 > Day 4: ML 기반 Entity Resolution
학습 목표
지도 학습 ER의 워크플로우를 이해한다 적합한 분류 알고리즘을 선택할 수 있다
지도 학습 ER 워크플로우
에디터 로딩 중...
Feature Engineering
입력: 레코드 쌍 출력: 유사도 벡터
에디터 로딩 중...
분류 알고리즘 선택
| 알고리즘 | 장점 | 단점 | 적합한 경우 |
|---|---|---|---|
| Logistic Regression | 빠름, 해석 가능 | 비선형 패턴 X | 베이스라인 |
| Random Forest | 비선형, 안정적 | 블랙박스 | 일반적 상황 |
| XGBoost | 높은 정확도 | 튜닝 필요 | 복잡한 데이터 |
| SVM | 고차원에 강함 | 대규모 느림 | 피처 많을 때 |
| Neural Network | 복잡한 패턴 | 데이터 많이 필요 | 대규모 |
recordlinkage 지도 학습
에디터 로딩 중...
sklearn 사용
에디터 로딩 중...
문제: 레이블 데이터가 없다!
현실:
- 수백만 쌍 중 어떤 것이 매칭인지 모름
- 사람이 일일이 레이블링? → 비용 & 시간
해결책: Active Learning