15

"90% 유사하면 같은 사람인가요?" - 유사도의 함정

Day 2: 문자열 유사도 & Fuzzy Matching

학습 목표

유사도 점수만으로 판단하는 것의 위험성을 이해한다 필드별 유사도 전략의 필요성을 파악한다

"유사도 90%면 같은 사람이죠?"

어제 만든 Entity Resolution 시스템을 운영에 적용했다.

그런데...


Case 1: 높은 유사도, 다른 사람

에디터 로딩 중...

교훈: 이름만으로 판단하면 위험


Case 2: 낮은 유사도, 같은 사람

에디터 로딩 중...

교훈: 단일 필드 유사도는 함정


Case 3: 오탈자의 공포

에디터 로딩 중...

교훈: 임계값 설정은 과학이 아니라 예술


오늘 배울 것

  1. Levenshtein 심화 - 단순 거리를 넘어서
  2. Jaro-Winkler 심화 - 왜 이름에 효과적인가
  3. Fuzzy Matching 패턴 - 실전 전략
  4. 복합 점수 설계 - 필드별 가중치

유사도의 함정을 피하는 방법을 배우자.