30분
실습: 문자열 유사도 계산
Day 1: Entity Resolution 개론
실습: 문자열 유사도 계산
Entity Resolution & 데이터 통합 > Day 1: Entity Resolution 개론
학습 목표
여러 유사도 알고리즘을 Python으로 구현할 수 있다 상황에 맞는 알고리즘을 선택할 수 있다
미션: 문자열 유사도 라이브러리 탐험
여러 유사도 알고리즘을 테스트하고, 어떤 상황에 어떤 알고리즘이 좋은지 비교해보자.
단계
- 라이브러리 설치 및 임포트
- Levenshtein 유사도 테스트
- Jaro-Winkler 유사도 테스트
- Token 기반 유사도 테스트
- 결과 비교 및 분석
에디터 로딩 중...
힌트 보기
- • jellyfish.jaro_winkler_similarity(s1, s2)로 Jaro-Winkler 계산
- • set(s.split())으로 토큰 집합 생성
- • 교집합: set1 & set2, 합집합: set1 | set2
정답 보기
에디터 로딩 중...