35

실습: 복잡한 비즈니스 로직 구현

Day 4: Python 함수를 Spark에서 쓰고 싶은데

학습 목표

실제 비즈니스 로직을 UDF로 구현할 수 있다 적절한 UDF 유형을 선택할 수 있다

미션: 주소 정제 파이프라인

실제 데이터에서 흔히 마주치는 "더러운" 주소 데이터를 정제하세요.

요구사항

  1. 우편번호 추출 (5자리 숫자)
  2. 시/도 표준화 (서울특별시 → 서울, 경기도 → 경기)
  3. 상세주소 마스킹 (동/호 정보 → ***)
  4. 주소 유효성 검사
에디터 로딩 중...
힌트 보기
  • regexp_extract()로 패턴 추출
  • Pandas str.replace()로 벡터화 치환
  • re.sub()로 Python 정규식 치환
  • bool(re.search())로 패턴 존재 여부 확인
정답 보기
에디터 로딩 중...