25

Python UDF: 기본 사용법

Day 4: Python 함수를 Spark에서 쓰고 싶은데

학습 목표

Python UDF를 정의하고 사용할 수 있다 UDF의 반환 타입을 지정할 수 있다

UDF 정의 방법

방법 1: udf() 함수

에디터 로딩 중...

방법 2: 데코레이터

에디터 로딩 중...

방법 3: Spark SQL 등록

에디터 로딩 중...

주요 반환 타입

Python 타입Spark 타입
strStringType()
intIntegerType()
floatDoubleType()
boolBooleanType()
listArrayType(내부타입)
dictMapType(키타입, 값타입)
복합StructType([...])

주의: None 처리

에디터 로딩 중...
에디터 로딩 중...
힌트 보기
  • @udf(타입) 데코레이터 사용
  • None 체크 필수!
  • try-except로 예외 처리
  • ArrayType()으로 리스트 반환
정답 보기
에디터 로딩 중...