문자열 유사도: 얼마나 비슷한가? | Entity Resolution & 데이터 통합 | FDE Academy

"비슷하다"를 숫자로 표현하기

에디터 로딩 중...

한 문자열을 다른 문자열로 바꾸는데 필요한 최소 편집 연산 수 (삽입, 삭제, 치환)

에디터 로딩 중...

유사도로 변환:

에디터 로딩 중...

에디터 로딩 중...

장점: 직관적, 널리 사용됨 단점: 글자 순서에 민감, 느림

이름 매칭에 최적화된 알고리즘 앞부분 일치에 더 높은 가중치

에디터 로딩 중...

에디터 로딩 중...

장점: 이름/고유명사에 효과적, 오타에 강함 단점: 긴 문자열에 부적합

두 집합의 교집합 / 합집합

에디터 로딩 중...

에디터 로딩 중...

장점: 단어 순서 무관, 긴 텍스트에 적합 단점: 오타에 취약

발음이 비슷한 단어를 같은 코드로 변환

에디터 로딩 중...

장점: 발음 오류/변형에 강함 단점: 영어 중심, 한국어 부적합

1. 전처리가 반이다

에디터 로딩 중...

2. 여러 알고리즘 조합

에디터 로딩 중...

3. 임계값(Threshold) 튜닝

에디터 로딩 중...