15

Week 4 회고: Entity Resolution 마스터

Day 5: Weekly Project - 고객 MDM 구축

학습 목표

이번 주 배운 내용을 정리한다 실무 적용 방안을 파악한다

Week 4 완료!

이번 주에 배운 내용:

Day 1: Entity Resolution 개론

  • ER 문제 유형 (Deduplication, Record Linkage)
  • ER 파이프라인 개요
  • recordlinkage 라이브러리 기초

Day 2: 문자열 유사도 & Fuzzy Matching

  • Levenshtein, Damerau-Levenshtein
  • Jaro-Winkler (이름 매칭)
  • Token-based (Jaccard, N-gram)
  • fuzzywuzzy 라이브러리

Day 3: Blocking & Indexing

  • Standard Blocking
  • Sorted Neighbourhood
  • Multi-Block 전략
  • RR, PC, PQ 평가 지표

Day 4: ML 기반 Entity Resolution

  • Fellegi-Sunter 확률 모델
  • 지도 학습 분류기
  • Active Learning (Uncertainty Sampling)
  • dedupe 라이브러리

Day 5: 고객 MDM 프로젝트

  • 다중 소스 데이터 통합
  • Golden Record 생성
  • Survivorship 규칙
  • 품질 검증

핵심 스킬 체크리스트

  • 문자열 유사도 알고리즘 선택 및 적용
  • Blocking 전략 설계 및 최적화
  • recordlinkage 파이프라인 구현
  • Active Learning 개념 이해
  • Golden Record 생성 로직 구현
  • MDM 프로젝트 전체 수행

실전 적용 아이디어

  1. CRM 통합: 여러 채널(웹, 앱, 콜센터)의 고객 데이터 통합
  2. 의료 데이터 연계: 환자 기록 연결 (프라이버시 고려)
  3. 금융 사기 탐지: 신원 위장 탐지
  4. 이커머스: 중복 상품 탐지
  5. B2B: 기업 정보 통합 (회사명 변형, M&A 반영)

다음 단계

Week 5: RAG 기초 (Phase 3 계속)

Knowledge Graph와 결합하면:

  • 통합된 고객 데이터 → Knowledge Graph 노드
  • 매칭 관계 → Knowledge Graph 엣지
  • GraphRAG로 "고객 360도 뷰" 질의

면접 준비

Q: Entity Resolution과 단순 조인의 차이는?

조인은 정확한 키 일치가 필요하지만, ER은 유사도 기반으로 "같을 가능성"을 판단합니다.

Q: Blocking을 왜 사용하나요?

N x M 전체 비교는 O(NM) 시간이 걸립니다. Blocking으로 가능성 높은 후보만 비교하여 계산량을 줄입니다.

Q: Active Learning이 ER에서 효과적인 이유는?

ER은 레이블 데이터 확보가 어렵습니다. Active Learning으로 가장 유용한 샘플만 레이블링하면 적은 비용으로 좋은 모델을 만들 수 있습니다.


수고하셨습니다!