20분
Entity Resolution 문제 유형
Day 1: Entity Resolution 개론
Entity Resolution 문제 유형
Entity Resolution & 데이터 통합 > Day 1: Entity Resolution 개론
학습 목표
Deduplication과 Record Linkage의 차이를 이해한다 실무에서 ER이 필요한 상황을 파악한다
ER 문제의 두 가지 유형
1. Deduplication (중복 제거)
하나의 데이터셋 내에서 중복 레코드 찾기
에디터 로딩 중...
활용 사례:
- 마케팅 리스트 정제 (중복 발송 방지)
- 고객 DB 품질 관리
- 중복 가입 탐지
2. Record Linkage (레코드 연결)
두 개 이상의 데이터셋 간 동일 레코드 연결
에디터 로딩 중...
활용 사례:
- M&A 후 데이터 통합
- 마스터 데이터 관리 (MDM)
- 공공 데이터 연계 (행정정보 + 의료정보)
- 추천 시스템 (유저-아이템 매칭)
실무 ER 시나리오
시나리오 1: CRM 통합
에디터 로딩 중...
시나리오 2: 의료 데이터 연계
에디터 로딩 중...
시나리오 3: 금융 사기 탐지
에디터 로딩 중...
ER 파이프라인 개요
에디터 로딩 중...
왜 단순 비교는 안 되는가?
문제: 조합 폭발
에디터 로딩 중...
해결: Blocking
- 전체 비교 대신, 가능성 높은 후보만 비교
- 예: 같은 지역끼리만 비교
내일 자세히 배운다.
핵심 용어 정리
| 용어 | 영어 | 설명 |
|---|---|---|
| 개체 | Entity | 실제 존재하는 대상 (사람, 회사, 제품) |
| 레코드 | Record | 데이터베이스의 한 행 |
| 매칭 쌍 | Matched Pair | 같은 개체로 판단된 레코드 쌍 |
| True Positive | TP | 실제 매칭 → 매칭 예측 (정답) |
| False Positive | FP | 실제 비매칭 → 매칭 예측 (오탐) |
| False Negative | FN | 실제 매칭 → 비매칭 예측 (누락) |