30

Pandas UDF: 10배 빠른 UDF

Day 4: Python 함수를 Spark에서 쓰고 싶은데

학습 목표

Pandas UDF의 원리를 이해한다 Pandas UDF를 작성할 수 있다

Python UDF vs Pandas UDF

Python UDF:

에디터 로딩 중...

Pandas UDF (Vectorized):

에디터 로딩 중...

Pandas UDF는 데이터를 배치로 처리해서 훨씬 빠르다.


Pandas UDF 유형

1. Series to Series (가장 흔함)

에디터 로딩 중...

2. Iterator of Series (메모리 절약)

에디터 로딩 중...

3. Grouped Map (그룹별 처리)

에디터 로딩 중...

언제 뭘 쓸까?

상황선택
간단한 변환Built-in 함수 (최우선)
Built-in으로 안 됨 + 성능 중요Pandas UDF
프로토타이핑 / 간단한 작업Python UDF
그룹별 복잡한 처리Grouped Map
에디터 로딩 중...
힌트 보기
  • pd.Series.str.upper()로 벡터화 문자열 처리
  • pd.Series.clip()으로 경계값 처리
  • applyInPandas()로 그룹별 DataFrame 처리
  • 출력 스키마를 정확히 지정
정답 보기
에디터 로딩 중...