25분
Python UDF: 기본 사용법
Day 4: Python 함수를 Spark에서 쓰고 싶은데
Python UDF: 기본 사용법
Apache Spark: 대용량 데이터 처리의 시작 > Day 4: Python 함수를 Spark에서 쓰고 싶은데
학습 목표
Python UDF를 정의하고 사용할 수 있다 UDF의 반환 타입을 지정할 수 있다
UDF 정의 방법
방법 1: udf() 함수
에디터 로딩 중...
방법 2: 데코레이터
에디터 로딩 중...
방법 3: Spark SQL 등록
에디터 로딩 중...
주요 반환 타입
| Python 타입 | Spark 타입 |
|---|---|
| str | StringType() |
| int | IntegerType() |
| float | DoubleType() |
| bool | BooleanType() |
| list | ArrayType(내부타입) |
| dict | MapType(키타입, 값타입) |
| 복합 | StructType([...]) |
주의: None 처리
에디터 로딩 중...
에디터 로딩 중...
힌트 보기
- • @udf(타입) 데코레이터 사용
- • None 체크 필수!
- • try-except로 예외 처리
- • ArrayType()으로 리스트 반환
정답 보기
에디터 로딩 중...