35분
Spark 변환 테스트
Day 5: 테스트와 발표
Spark 변환 테스트
Phase 1 캡스톤: E2E 데이터 파이프라인 > Day 5: 테스트와 발표
학습 목표
Spark DataFrame 테스트를 작성할 수 있다 chispa 라이브러리로 DataFrame을 비교할 수 있다 Spark 세션을 테스트에서 관리할 수 있다
미션: Transformer 테스트
Spark Transformer의 테스트를 작성하세요.
요구사항
-
Spark Fixture
- 세션 단위 Spark 세션
- 테스트 후 정리
-
DataFrame 비교
- chispa.assert_df_equality() 사용
- 스키마와 데이터 모두 검증
-
테스트 케이스
- clean() 메서드 테스트
- deduplicate() 메서드 테스트
- SCD Type 2 변경 감지 테스트
에디터 로딩 중...
힌트 보기
- • scope="session"으로 Spark 세션을 테스트 세션 동안 재사용
- • chispa.assert_df_equality()는 두 DataFrame을 비교한다
- • spark.createDataFrame()으로 테스트 데이터를 생성
- • tmp_path는 pytest의 내장 fixture로 임시 경로 제공
정답 보기
에디터 로딩 중...