30

실습: 문자열 유사도 계산

Day 1: Entity Resolution 개론

학습 목표

여러 유사도 알고리즘을 Python으로 구현할 수 있다 상황에 맞는 알고리즘을 선택할 수 있다

미션: 문자열 유사도 라이브러리 탐험

여러 유사도 알고리즘을 테스트하고, 어떤 상황에 어떤 알고리즘이 좋은지 비교해보자.

단계

  1. 라이브러리 설치 및 임포트
  2. Levenshtein 유사도 테스트
  3. Jaro-Winkler 유사도 테스트
  4. Token 기반 유사도 테스트
  5. 결과 비교 및 분석
에디터 로딩 중...
힌트 보기
  • jellyfish.jaro_winkler_similarity(s1, s2)로 Jaro-Winkler 계산
  • set(s.split())으로 토큰 집합 생성
  • 교집합: set1 & set2, 합집합: set1 | set2
정답 보기
에디터 로딩 중...