N-gram과 Token 기반 Fuzzy Matching | Entity Resolution & 데이터 통합 | FDE Academy

Token 기반 vs Character 기반

Character 기반 (Levenshtein, Jaro-Winkler)

Token 기반 (Jaccard, TF-IDF)

연속된 N개의 문자/단어 조각

에디터 로딩 중...

에디터 로딩 중...

에디터 로딩 중...

에디터 로딩 중...

장점: 순서에 무관 단점: "서울시" vs "서울" 매칭 실패

Token Sort Ratio

토큰을 정렬 후 비교

에디터 로딩 중...

Token Set Ratio

공통 토큰 기준 비교 (부분 매칭 허용)

에디터 로딩 중...

에디터 로딩 중...