🏆40

Challenge: 한국어 특화 Fuzzy Matching

Day 2: 문자열 유사도 & Fuzzy Matching

학습 목표

한국어 데이터의 특성을 고려한 유사도 알고리즘을 설계할 수 있다 초성 추출, 조사 제거 등 한국어 전처리를 구현할 수 있다

요구사항

한국어 초성 추출 함수 구현

한국어 조사 제거 함수 구현

한영 혼합 이름 처리

주소의 시/도 표준화

평가 기준
  • 초성 추출이 정확한가?
  • 조사 제거가 올바르게 동작하는가?
  • 한영 혼합 이름 처리가 적절한가?
  • 테스트 케이스를 충분히 커버하는가?
보너스
  • 초성 검색 기능 구현 (ㄱㅊㅅ로 김철수 찾기)
  • 로마자 → 한글 역변환
  • 실제 주소 데이터로 테스트
힌트 보기
한글 유니코드: ord(char) - 0xAC00으로 초성 인덱스 계산
re.sub()로 조사 패턴 제거
성씨 비교는 사전 기반, 이름은 발음 유사도