15분
Week 4 회고: Entity Resolution 마스터
Day 5: Weekly Project - 고객 MDM 구축
Week 4 회고: Entity Resolution 마스터
Entity Resolution & 데이터 통합 > Day 5: Weekly Project - 고객 MDM 구축
학습 목표
이번 주 배운 내용을 정리한다 실무 적용 방안을 파악한다
Week 4 완료!
이번 주에 배운 내용:
Day 1: Entity Resolution 개론
- ER 문제 유형 (Deduplication, Record Linkage)
- ER 파이프라인 개요
- recordlinkage 라이브러리 기초
Day 2: 문자열 유사도 & Fuzzy Matching
- Levenshtein, Damerau-Levenshtein
- Jaro-Winkler (이름 매칭)
- Token-based (Jaccard, N-gram)
- fuzzywuzzy 라이브러리
Day 3: Blocking & Indexing
- Standard Blocking
- Sorted Neighbourhood
- Multi-Block 전략
- RR, PC, PQ 평가 지표
Day 4: ML 기반 Entity Resolution
- Fellegi-Sunter 확률 모델
- 지도 학습 분류기
- Active Learning (Uncertainty Sampling)
- dedupe 라이브러리
Day 5: 고객 MDM 프로젝트
- 다중 소스 데이터 통합
- Golden Record 생성
- Survivorship 규칙
- 품질 검증
핵심 스킬 체크리스트
- 문자열 유사도 알고리즘 선택 및 적용
- Blocking 전략 설계 및 최적화
- recordlinkage 파이프라인 구현
- Active Learning 개념 이해
- Golden Record 생성 로직 구현
- MDM 프로젝트 전체 수행
실전 적용 아이디어
- CRM 통합: 여러 채널(웹, 앱, 콜센터)의 고객 데이터 통합
- 의료 데이터 연계: 환자 기록 연결 (프라이버시 고려)
- 금융 사기 탐지: 신원 위장 탐지
- 이커머스: 중복 상품 탐지
- B2B: 기업 정보 통합 (회사명 변형, M&A 반영)
다음 단계
Week 5: RAG 기초 (Phase 3 계속)
Knowledge Graph와 결합하면:
- 통합된 고객 데이터 → Knowledge Graph 노드
- 매칭 관계 → Knowledge Graph 엣지
- GraphRAG로 "고객 360도 뷰" 질의
면접 준비
Q: Entity Resolution과 단순 조인의 차이는?
조인은 정확한 키 일치가 필요하지만, ER은 유사도 기반으로 "같을 가능성"을 판단합니다.
Q: Blocking을 왜 사용하나요?
N x M 전체 비교는 O(NM) 시간이 걸립니다. Blocking으로 가능성 높은 후보만 비교하여 계산량을 줄입니다.
Q: Active Learning이 ER에서 효과적인 이유는?
ER은 레이블 데이터 확보가 어렵습니다. Active Learning으로 가장 유용한 샘플만 레이블링하면 적은 비용으로 좋은 모델을 만들 수 있습니다.
수고하셨습니다!