30분
Pandas UDF: 10배 빠른 UDF
Day 4: Python 함수를 Spark에서 쓰고 싶은데
Pandas UDF: 10배 빠른 UDF
Apache Spark: 대용량 데이터 처리의 시작 > Day 4: Python 함수를 Spark에서 쓰고 싶은데
학습 목표
Pandas UDF의 원리를 이해한다 Pandas UDF를 작성할 수 있다
Python UDF vs Pandas UDF
Python UDF:
에디터 로딩 중...
Pandas UDF (Vectorized):
에디터 로딩 중...
Pandas UDF는 데이터를 배치로 처리해서 훨씬 빠르다.
Pandas UDF 유형
1. Series to Series (가장 흔함)
에디터 로딩 중...
2. Iterator of Series (메모리 절약)
에디터 로딩 중...
3. Grouped Map (그룹별 처리)
에디터 로딩 중...
언제 뭘 쓸까?
| 상황 | 선택 |
|---|---|
| 간단한 변환 | Built-in 함수 (최우선) |
| Built-in으로 안 됨 + 성능 중요 | Pandas UDF |
| 프로토타이핑 / 간단한 작업 | Python UDF |
| 그룹별 복잡한 처리 | Grouped Map |
에디터 로딩 중...
힌트 보기
- • pd.Series.str.upper()로 벡터화 문자열 처리
- • pd.Series.clip()으로 경계값 처리
- • applyInPandas()로 그룹별 DataFrame 처리
- • 출력 스키마를 정확히 지정
정답 보기
에디터 로딩 중...