15분
UDF 베스트 프랙티스
Day 4: Python 함수를 Spark에서 쓰고 싶은데
UDF 베스트 프랙티스
Apache Spark: 대용량 데이터 처리의 시작 > Day 4: Python 함수를 Spark에서 쓰고 싶은데
학습 목표
UDF 사용 시 주의사항을 이해한다 효율적인 UDF 작성 패턴을 익힌다
UDF 사용 원칙
1. 정말 UDF가 필요한가?
에디터 로딩 중...
Built-in으로 가능하면 무조건 Built-in!
2. None 처리 필수
에디터 로딩 중...
3. 예외 처리
에디터 로딩 중...
UDF 내부 에러는 전체 작업을 실패시킬 수 있다!
4. 외부 자원 접근 금지
에디터 로딩 중...
5. Pandas UDF 우선
에디터 로딩 중...
UDF 대안 고려
대안 1: SQL 표현식
에디터 로딩 중...
대안 2: when/otherwise
에디터 로딩 중...
대안 3: 정규식 함수
에디터 로딩 중...
체크리스트
- Built-in 함수로 가능한지 먼저 확인했는가?
- None 처리를 했는가?
- 예외 처리를 했는가?
- Python UDF 대신 Pandas UDF를 고려했는가?
- UDF 내에서 외부 API 호출을 하지 않는가?