실행 계획 읽기: explain() 마스터 | Apache Spark: 대용량 데이터 처리의 시작 | FDE Academy

explain() 사용법

에디터 로딩 중...

키워드	의미
`FileScan parquet [col1, col2]`	해당 컬럼만 읽음 (Column Pruning)
`PushedFilters: [col > 100]`	파일 레벨에서 필터 (Predicate Pushdown)
`BroadcastHashJoin`	Broadcast Join 사용
`SortMergeJoin`	Sort-Merge Join 사용
`Exchange`	Shuffle 발생
`WholeStageCodegen`	최적화된 코드 생성

에디터 로딩 중...

이게 보이면 Shuffle이 발생하고 있다!

Shuffle = 데이터를 네트워크로 재분배 → 느리고 비용이 크다

Shuffle이 발생하는 연산: