30분
Step 4: 최적화 적용
Day 5: 대용량 로그 분석 파이프라인
Step 4: 최적화 적용
Apache Spark: 대용량 데이터 처리의 시작 > Day 5: 대용량 로그 분석 파이프라인
학습 목표
실행 계획을 분석하고 최적화할 수 있다 실무 수준의 성능 최적화 기법을 적용할 수 있다
최적화 포인트
1. Catalyst 최적화 확인
- explain()으로 실행 계획 분석
- Predicate Pushdown 적용 확인
2. 파티션 최적화
- 적절한 파티션 수 설정
- 불필요한 Shuffle 제거
3. 캐싱 전략
- 반복 사용되는 DataFrame 캐시
- 캐시 효과 측정
4. Broadcast Join
- 작은 조회 테이블 broadcast
- Join 성능 비교
에디터 로딩 중...
힌트 보기
- • explain(True)로 상세 계획 확인
- • cache() 후 count()로 워밍업
- • broadcast()로 작은 테이블 최적화
- • shuffle.partitions 조정으로 로컬 성능 개선
정답 보기
에디터 로딩 중...