30

Step 4: 최적화 적용

Day 5: 대용량 로그 분석 파이프라인

학습 목표

실행 계획을 분석하고 최적화할 수 있다 실무 수준의 성능 최적화 기법을 적용할 수 있다

최적화 포인트

1. Catalyst 최적화 확인

  • explain()으로 실행 계획 분석
  • Predicate Pushdown 적용 확인

2. 파티션 최적화

  • 적절한 파티션 수 설정
  • 불필요한 Shuffle 제거

3. 캐싱 전략

  • 반복 사용되는 DataFrame 캐시
  • 캐시 효과 측정

4. Broadcast Join

  • 작은 조회 테이블 broadcast
  • Join 성능 비교
에디터 로딩 중...
힌트 보기
  • explain(True)로 상세 계획 확인
  • cache() 후 count()로 워밍업
  • broadcast()로 작은 테이블 최적화
  • shuffle.partitions 조정으로 로컬 성능 개선
정답 보기
에디터 로딩 중...