30분
실습: 최적화 전후 비교
Day 3: 같은 코드가 10배 빨라지는 비밀
실습: 최적화 전후 비교
Apache Spark: 대용량 데이터 처리의 시작 > Day 3: 같은 코드가 10배 빨라지는 비밀
학습 목표
비효율적인 코드를 최적화할 수 있다 실행 계획으로 개선을 확인할 수 있다
미션: 느린 코드 개선하기
비효율적인 코드를 최적화하고, explain()으로 차이를 확인하세요.
최적화 포인트
- Python UDF → Built-in 함수
- 불필요한 Shuffle 제거
- Broadcast Join 명시
- 필터 순서 조정
에디터 로딩 중...
힌트 보기
- • upper() 함수로 대문자 변환
- • when().otherwise()로 조건부 값
- • broadcast()로 작은 테이블 명시
- • filter()를 join() 앞에 배치
정답 보기
에디터 로딩 중...