20분
프로젝트: 고객 Master Data Management (MDM)
Day 5: Weekly Project - 고객 MDM 구축
프로젝트: 고객 Master Data Management (MDM)
Entity Resolution & 데이터 통합 > Day 5: Weekly Project - 고객 MDM 구축
학습 목표
Master Data Management의 개념을 이해한다 이번 주 배운 ER 기법을 실전에 적용한다
프로젝트 배경
당신은 "MegaCorp"의 데이터 엔지니어다.
M&A로 3개 회사가 합쳐졌고, 각 시스템의 고객 데이터를 통합해야 한다.
현재 상황
에디터 로딩 중...
목표: Golden Record 생성
에디터 로딩 중...
프로젝트 단계
| 단계 | 내용 | 예상 시간 |
|---|---|---|
| 1 | 데이터 탐색 & 스키마 매핑 | 30분 |
| 2 | 전처리 & 정규화 | 30분 |
| 3 | Blocking 전략 설계 | 20분 |
| 4 | 유사도 비교 & 매칭 | 40분 |
| 5 | Golden Record 생성 | 30분 |
| 6 | 검증 & 리포트 | 30분 |
총 예상 시간: 3시간
평가 기준
| 항목 | 배점 |
|---|---|
| 스키마 매핑 정확성 | 15점 |
| 전처리 품질 | 15점 |
| Blocking 효율성 (RR > 90%) | 15점 |
| 매칭 정확도 (F1 > 0.85) | 25점 |
| Golden Record 품질 | 15점 |
| 문서화 & 코드 품질 | 15점 |
데이터 품질 이슈 (사전 정보)
-
이름 변형
- 한글/영문 혼용: "김철수" vs "Kim Chulsoo"
- 공백 차이: "김철수" vs "김 철수"
-
전화번호 형식
- "010-1234-5678" vs "01012345678" vs "+82-10-1234-5678"
-
이메일
- 일부 시스템에서 결측
-
지역 표기
- "서울" vs "서울시" vs "서울특별시"
시작해보자!