15분

UDF 베스트 프랙티스

Day 4: Python 함수를 Spark에서 쓰고 싶은데

학습 목표

UDF 사용 시 주의사항을 이해한다 효율적인 UDF 작성 패턴을 익힌다

UDF 사용 원칙

1. 정말 UDF가 필요한가?

에디터 로딩 중...

Built-in으로 가능하면 무조건 Built-in!

2. None 처리 필수

에디터 로딩 중...

3. 예외 처리

에디터 로딩 중...

UDF 내부 에러는 전체 작업을 실패시킬 수 있다!

4. 외부 자원 접근 금지

에디터 로딩 중...

5. Pandas UDF 우선

에디터 로딩 중...

UDF 대안 고려

대안 1: SQL 표현식

에디터 로딩 중...

대안 2: when/otherwise

에디터 로딩 중...

대안 3: 정규식 함수

에디터 로딩 중...

체크리스트

Built-in 함수로 가능한지 먼저 확인했는가?
None 처리를 했는가?
예외 처리를 했는가?
Python UDF 대신 Pandas UDF를 고려했는가?
UDF 내에서 외부 API 호출을 하지 않는가?