Built-in 함수로 안 될 때 | Apache Spark: 대용량 데이터 처리의 시작 | FDE Academy

"이거 Built-in으로 어떻게 해요?"

어느 날, 이상한 요구사항이 왔다.

"사업자등록번호 형식 검증 좀 해줘. 123-45-67890 이런 형식이어야 해."

Spark Built-in 함수를 뒤졌다. regexp_extract, like, rlike... 정규식으로 할 수는 있는데...

검증 로직이 복잡하다:

이건 Python 함수로 짜는 게 맞다.

내가 만든 Python 함수를 Spark에서 쓸 수 있다!

에디터 로딩 중...

편리하다!

에디터 로딩 중...

문제:

결과: Built-in 함수보다 10~100배 느릴 수 있다.

UDF는 최후의 수단이지만, 알면 강력한 무기가 된다.