25분
Fellegi-Sunter: 확률 기반 ER 모델
Day 4: ML 기반 Entity Resolution
Fellegi-Sunter: 확률 기반 ER 모델
Entity Resolution & 데이터 통합 > Day 4: ML 기반 Entity Resolution
학습 목표
Fellegi-Sunter 모델의 원리를 이해한다 m-probability와 u-probability의 의미를 파악한다
Fellegi-Sunter 모델 (1969)
Entity Resolution의 이론적 기반
두 레코드가 매칭일 확률을 각 필드의 일치/불일치 정보로 계산
핵심 개념
M (Match): 실제로 같은 Entity인 레코드 쌍 U (Unmatch): 실제로 다른 Entity인 레코드 쌍
m-probability: 매칭 쌍에서 필드가 일치할 확률 u-probability: 비매칭 쌍에서 필드가 일치할 확률 (우연)
예시: 전화번호 필드
에디터 로딩 중...
예시: 성별 필드
에디터 로딩 중...
가중치 계산
일치 시 가중치:
에디터 로딩 중...
불일치 시 가중치:
에디터 로딩 중...
총점 계산
에디터 로딩 중...
분류 결정
에디터 로딩 중...
Python 구현 (recordlinkage)
에디터 로딩 중...
장단점
장점:
- 이론적으로 탄탄함
- 레이블 없이 학습 가능 (비지도)
- 해석 가능 (어떤 필드가 중요한지)
단점:
- 필드 간 독립 가정 (현실에서 위반)
- 파라미터 추정이 어려울 수 있음
- 복잡한 패턴 학습에 한계