🏆40

도전과제: Spark UI 분석 보고서

Spark UI: 병목 찾기와 디버깅

요구사항

비최적화 파이프라인 실행 및 분석

Spark UI 분석 (Jobs, Stages, SQL, Executors)

최적화 방안 제시 및 구현

성능 비교 결과

평가 기준
  • Spark UI 분석 정확성 (30%)
  • 최적화 방안 적절성 (30%)
  • 성능 개선 달성 (25%)
  • 보고서 품질 (15%)

시나리오

복잡한 ETL 파이프라인을 실행하고 Spark UI를 분석하여 최적화 보고서를 작성합니다.


요구사항

1. ETL 파이프라인 실행

에디터 로딩 중...

2. Spark UI 분석

다음 항목을 분석하세요:

  • Jobs 탭: 총 Job 수, 가장 느린 Job
  • Stages 탭: Shuffle이 발생한 Stage, Skew 여부
  • SQL 탭: Join 방식, Exchange 개수
  • Executors 탭: 메모리 사용량, Spill 여부

3. 최적화 제안

분석 결과를 바탕으로 최적화 방안을 제시하세요:

  • Broadcast Join 적용 가능 여부
  • 파티셔닝 전략
  • 메모리 설정

제출물

  • Spark UI 스크린샷 (주요 화면)
  • 분석 보고서 (마크다운)
  • 최적화된 코드
힌트 보기
products가 가장 작으므로 Broadcast 대상
filter는 join 전에 적용하면 Shuffle 데이터 감소
orderBy는 최종 결과에만 필요한지 확인
SQL 탭에서 Exchange 개수 줄이기가 목표
explain(True)로 상세 계획 확인