25

Spark + Delta Lake 설정

Day 3: 데이터 변환 파이프라인

학습 목표

PySpark 세션을 설정할 수 있다 Delta Lake를 연동할 수 있다

미션: Spark 세션 설정

Delta Lake와 연동된 Spark 세션을 생성하는 유틸리티를 만드세요.

요구사항

  1. Delta Lake 설정

    • delta-spark 패키지 연동
    • Delta 확장 기능 활성화
  2. S3 연동

    • MinIO/S3 접속 설정
    • Hadoop S3A 설정
  3. 성능 최적화

    • 메모리 설정
    • 파티션 설정
에디터 로딩 중...
힌트 보기
  • configure_spark_with_delta_pip()은 Delta Lake JAR를 자동으로 다운로드한다
  • s3a는 S3 호환 스토리지 프로토콜이다
  • path.style.access=true는 MinIO와 같은 S3 호환 서비스에 필요하다
  • 컨텍스트 매니저를 사용하면 세션 종료를 보장할 수 있다
정답 보기
에디터 로딩 중...