🏆40분
Challenge: 한국어 특화 Fuzzy Matching
Day 2: 문자열 유사도 & Fuzzy Matching
Challenge: 한국어 특화 Fuzzy Matching
Entity Resolution & 데이터 통합 > Day 2: 문자열 유사도 & Fuzzy Matching
학습 목표
한국어 데이터의 특성을 고려한 유사도 알고리즘을 설계할 수 있다 초성 추출, 조사 제거 등 한국어 전처리를 구현할 수 있다
요구사항
한국어 초성 추출 함수 구현
한국어 조사 제거 함수 구현
한영 혼합 이름 처리
주소의 시/도 표준화
평가 기준
- • 초성 추출이 정확한가?
- • 조사 제거가 올바르게 동작하는가?
- • 한영 혼합 이름 처리가 적절한가?
- • 테스트 케이스를 충분히 커버하는가?
보너스
- • 초성 검색 기능 구현 (ㄱㅊㅅ로 김철수 찾기)
- • 로마자 → 한글 역변환
- • 실제 주소 데이터로 테스트
힌트 보기
한글 유니코드: ord(char) - 0xAC00으로 초성 인덱스 계산 re.sub()로 조사 패턴 제거 성씨 비교는 사전 기반, 이름은 발음 유사도