🏆40분
Challenge: 다양한 유사도 알고리즘 비교 분석
Day 1: Entity Resolution 개론
Challenge: 다양한 유사도 알고리즘 비교 분석
Entity Resolution & 데이터 통합 > Day 1: Entity Resolution 개론
학습 목표
여러 유사도 알고리즘의 장단점을 비교할 수 있다 데이터 특성에 따른 알고리즘 선택 기준을 수립할 수 있다
요구사항
3가지 이상 유사도 알고리즘 비교
이름, 주소, 전화번호 각각에 대해 테스트
알고리즘별 장단점 문서화
최적 알고리즘 조합 제안
평가 기준
- • 알고리즘 비교가 체계적인가?
- • 테스트 케이스가 다양한가?
- • 장단점 분석이 명확한가?
- • 제안이 근거에 기반하는가?
보너스
- • 한국어 이름에 특화된 유사도 알고리즘 제안
- • 복합 점수 계산 방식 설계 (가중 평균 등)
- • 실제 데이터셋으로 정확도 측정
힌트 보기
jellyfish.soundex()로 발음 유사도 비교 가능 Token 기반 비교는 단어 순서에 덜 민감함 전화번호는 정규화 후 비교가 핵심