15분
"90% 유사하면 같은 사람인가요?" - 유사도의 함정
Day 2: 문자열 유사도 & Fuzzy Matching
"90% 유사하면 같은 사람인가요?" - 유사도의 함정
Entity Resolution & 데이터 통합 > Day 2: 문자열 유사도 & Fuzzy Matching
학습 목표
유사도 점수만으로 판단하는 것의 위험성을 이해한다 필드별 유사도 전략의 필요성을 파악한다
"유사도 90%면 같은 사람이죠?"
어제 만든 Entity Resolution 시스템을 운영에 적용했다.
그런데...
Case 1: 높은 유사도, 다른 사람
에디터 로딩 중...
교훈: 이름만으로 판단하면 위험
Case 2: 낮은 유사도, 같은 사람
에디터 로딩 중...
교훈: 단일 필드 유사도는 함정
Case 3: 오탈자의 공포
에디터 로딩 중...
교훈: 임계값 설정은 과학이 아니라 예술
오늘 배울 것
- Levenshtein 심화 - 단순 거리를 넘어서
- Jaro-Winkler 심화 - 왜 이름에 효과적인가
- Fuzzy Matching 패턴 - 실전 전략
- 복합 점수 설계 - 필드별 가중치
유사도의 함정을 피하는 방법을 배우자.