15

UDF 베스트 프랙티스

Day 4: Python 함수를 Spark에서 쓰고 싶은데

학습 목표

UDF 사용 시 주의사항을 이해한다 효율적인 UDF 작성 패턴을 익힌다

UDF 사용 원칙

1. 정말 UDF가 필요한가?

에디터 로딩 중...

Built-in으로 가능하면 무조건 Built-in!


2. None 처리 필수

에디터 로딩 중...

3. 예외 처리

에디터 로딩 중...

UDF 내부 에러는 전체 작업을 실패시킬 수 있다!


4. 외부 자원 접근 금지

에디터 로딩 중...

5. Pandas UDF 우선

에디터 로딩 중...

UDF 대안 고려

대안 1: SQL 표현식

에디터 로딩 중...

대안 2: when/otherwise

에디터 로딩 중...

대안 3: 정규식 함수

에디터 로딩 중...

체크리스트

  • Built-in 함수로 가능한지 먼저 확인했는가?
  • None 처리를 했는가?
  • 예외 처리를 했는가?
  • Python UDF 대신 Pandas UDF를 고려했는가?
  • UDF 내에서 외부 API 호출을 하지 않는가?