20분
Python recordlinkage: ER 전문 라이브러리
Day 1: Entity Resolution 개론
Python recordlinkage: ER 전문 라이브러리
Entity Resolution & 데이터 통합 > Day 1: Entity Resolution 개론
학습 목표
recordlinkage 라이브러리의 구조를 이해한다 ER 파이프라인의 각 단계를 파악한다
recordlinkage 라이브러리
Python에서 Entity Resolution을 위한 전문 라이브러리 학술 연구와 실무에서 널리 사용됨
에디터 로딩 중...
라이브러리 구조
에디터 로딩 중...
ER 파이프라인 with recordlinkage
에디터 로딩 중...
Step 1: Indexing (Blocking)
왜 필요한가?
에디터 로딩 중...
Indexing 전략
| 전략 | 설명 | 예시 |
|---|---|---|
| Full | 모든 쌍 (테스트용) | - |
| Block | 특정 필드 일치 | 같은 도시 |
| Sorted Neighbourhood | 정렬 후 윈도우 | 이름 알파벳 순 |
| Random | 랜덤 샘플링 | 대용량 테스트 |
에디터 로딩 중...
Step 2: Comparison
비교 메서드
에디터 로딩 중...
Step 3: Classification
방법 1: 규칙 기반
에디터 로딩 중...
방법 2: Fellegi-Sunter 확률 모델
에디터 로딩 중...
방법 3: 지도학습 (라벨 있을 때)
에디터 로딩 중...
결과 해석
에디터 로딩 중...
전체 코드 프리뷰
에디터 로딩 중...
다음 Task에서 실제로 구현해보자.