20

Entity Resolution 문제 유형

Day 1: Entity Resolution 개론

학습 목표

Deduplication과 Record Linkage의 차이를 이해한다 실무에서 ER이 필요한 상황을 파악한다

ER 문제의 두 가지 유형

1. Deduplication (중복 제거)

하나의 데이터셋 내에서 중복 레코드 찾기

에디터 로딩 중...

활용 사례:

  • 마케팅 리스트 정제 (중복 발송 방지)
  • 고객 DB 품질 관리
  • 중복 가입 탐지

2. Record Linkage (레코드 연결)

두 개 이상의 데이터셋 간 동일 레코드 연결

에디터 로딩 중...

활용 사례:

  • M&A 후 데이터 통합
  • 마스터 데이터 관리 (MDM)
  • 공공 데이터 연계 (행정정보 + 의료정보)
  • 추천 시스템 (유저-아이템 매칭)

실무 ER 시나리오

시나리오 1: CRM 통합

에디터 로딩 중...

시나리오 2: 의료 데이터 연계

에디터 로딩 중...

시나리오 3: 금융 사기 탐지

에디터 로딩 중...

ER 파이프라인 개요

에디터 로딩 중...

왜 단순 비교는 안 되는가?

문제: 조합 폭발

에디터 로딩 중...

해결: Blocking

  • 전체 비교 대신, 가능성 높은 후보만 비교
  • 예: 같은 지역끼리만 비교

내일 자세히 배운다.


핵심 용어 정리

용어영어설명
개체Entity실제 존재하는 대상 (사람, 회사, 제품)
레코드Record데이터베이스의 한 행
매칭 쌍Matched Pair같은 개체로 판단된 레코드 쌍
True PositiveTP실제 매칭 → 매칭 예측 (정답)
False PositiveFP실제 비매칭 → 매칭 예측 (오탐)
False NegativeFN실제 매칭 → 비매칭 예측 (누락)