Spark 초보자가 하는 흔한 실수 | Apache Spark: 대용량 데이터 처리의 시작 | FDE Academy

실수 1: collect()를 함부로 쓴다

에디터 로딩 중...

collect()는 모든 데이터를 Driver로 가져온다. 10GB DataFrame에 collect()를 호출하면 Driver 메모리가 터진다.

에디터 로딩 중...

에디터 로딩 중...

toPandas()도 collect()와 같은 문제가 있다.

에디터 로딩 중...

에디터 로딩 중...

Action을 호출해야 실행된다:

에디터 로딩 중...

디버깅할 때 주의해야 함!

에디터 로딩 중...

권장:

에디터 로딩 중...

에디터 로딩 중...

SparkSession은 애플리케이션당 하나만 만들자.

에디터 로딩 중...