25

Fellegi-Sunter: 확률 기반 ER 모델

Day 4: ML 기반 Entity Resolution

학습 목표

Fellegi-Sunter 모델의 원리를 이해한다 m-probability와 u-probability의 의미를 파악한다

Fellegi-Sunter 모델 (1969)

Entity Resolution의 이론적 기반

두 레코드가 매칭일 확률을 각 필드의 일치/불일치 정보로 계산


핵심 개념

M (Match): 실제로 같은 Entity인 레코드 쌍 U (Unmatch): 실제로 다른 Entity인 레코드 쌍

m-probability: 매칭 쌍에서 필드가 일치할 확률 u-probability: 비매칭 쌍에서 필드가 일치할 확률 (우연)


예시: 전화번호 필드

에디터 로딩 중...

예시: 성별 필드

에디터 로딩 중...

가중치 계산

일치 시 가중치:

에디터 로딩 중...

불일치 시 가중치:

에디터 로딩 중...

총점 계산

에디터 로딩 중...

분류 결정

에디터 로딩 중...

Python 구현 (recordlinkage)

에디터 로딩 중...

장단점

장점:

  • 이론적으로 탄탄함
  • 레이블 없이 학습 가능 (비지도)
  • 해석 가능 (어떤 필드가 중요한지)

단점:

  • 필드 간 독립 가정 (현실에서 위반)
  • 파라미터 추정이 어려울 수 있음
  • 복잡한 패턴 학습에 한계