35분
실습: 복잡한 비즈니스 로직 구현
Day 4: Python 함수를 Spark에서 쓰고 싶은데
실습: 복잡한 비즈니스 로직 구현
Apache Spark: 대용량 데이터 처리의 시작 > Day 4: Python 함수를 Spark에서 쓰고 싶은데
학습 목표
실제 비즈니스 로직을 UDF로 구현할 수 있다 적절한 UDF 유형을 선택할 수 있다
미션: 주소 정제 파이프라인
실제 데이터에서 흔히 마주치는 "더러운" 주소 데이터를 정제하세요.
요구사항
- 우편번호 추출 (5자리 숫자)
- 시/도 표준화 (서울특별시 → 서울, 경기도 → 경기)
- 상세주소 마스킹 (동/호 정보 → ***)
- 주소 유효성 검사
에디터 로딩 중...
힌트 보기
- • regexp_extract()로 패턴 추출
- • Pandas str.replace()로 벡터화 치환
- • re.sub()로 Python 정규식 치환
- • bool(re.search())로 패턴 존재 여부 확인
정답 보기
에디터 로딩 중...