25분
Spark + Delta Lake 설정
Day 3: 데이터 변환 파이프라인
Spark + Delta Lake 설정
Phase 1 캡스톤: E2E 데이터 파이프라인 > Day 3: 데이터 변환 파이프라인
학습 목표
PySpark 세션을 설정할 수 있다 Delta Lake를 연동할 수 있다
미션: Spark 세션 설정
Delta Lake와 연동된 Spark 세션을 생성하는 유틸리티를 만드세요.
요구사항
-
Delta Lake 설정
- delta-spark 패키지 연동
- Delta 확장 기능 활성화
-
S3 연동
- MinIO/S3 접속 설정
- Hadoop S3A 설정
-
성능 최적화
- 메모리 설정
- 파티션 설정
에디터 로딩 중...
힌트 보기
- • configure_spark_with_delta_pip()은 Delta Lake JAR를 자동으로 다운로드한다
- • s3a는 S3 호환 스토리지 프로토콜이다
- • path.style.access=true는 MinIO와 같은 S3 호환 서비스에 필요하다
- • 컨텍스트 매니저를 사용하면 세션 종료를 보장할 수 있다
정답 보기
에디터 로딩 중...