20

Python recordlinkage: ER 전문 라이브러리

Day 1: Entity Resolution 개론

학습 목표

recordlinkage 라이브러리의 구조를 이해한다 ER 파이프라인의 각 단계를 파악한다

recordlinkage 라이브러리

Python에서 Entity Resolution을 위한 전문 라이브러리 학술 연구와 실무에서 널리 사용됨

에디터 로딩 중...

라이브러리 구조

에디터 로딩 중...

ER 파이프라인 with recordlinkage

에디터 로딩 중...

Step 1: Indexing (Blocking)

왜 필요한가?

에디터 로딩 중...

Indexing 전략

전략설명예시
Full모든 쌍 (테스트용)-
Block특정 필드 일치같은 도시
Sorted Neighbourhood정렬 후 윈도우이름 알파벳 순
Random랜덤 샘플링대용량 테스트
에디터 로딩 중...

Step 2: Comparison

비교 메서드

에디터 로딩 중...

Step 3: Classification

방법 1: 규칙 기반

에디터 로딩 중...

방법 2: Fellegi-Sunter 확률 모델

에디터 로딩 중...

방법 3: 지도학습 (라벨 있을 때)

에디터 로딩 중...

결과 해석

에디터 로딩 중...

전체 코드 프리뷰

에디터 로딩 중...

다음 Task에서 실제로 구현해보자.