35

Spark 변환 테스트

Day 5: 테스트와 발표

학습 목표

Spark DataFrame 테스트를 작성할 수 있다 chispa 라이브러리로 DataFrame을 비교할 수 있다 Spark 세션을 테스트에서 관리할 수 있다

미션: Transformer 테스트

Spark Transformer의 테스트를 작성하세요.

요구사항

  1. Spark Fixture

    • 세션 단위 Spark 세션
    • 테스트 후 정리
  2. DataFrame 비교

    • chispa.assert_df_equality() 사용
    • 스키마와 데이터 모두 검증
  3. 테스트 케이스

    • clean() 메서드 테스트
    • deduplicate() 메서드 테스트
    • SCD Type 2 변경 감지 테스트
에디터 로딩 중...
힌트 보기
  • scope="session"으로 Spark 세션을 테스트 세션 동안 재사용
  • chispa.assert_df_equality()는 두 DataFrame을 비교한다
  • spark.createDataFrame()으로 테스트 데이터를 생성
  • tmp_path는 pytest의 내장 fixture로 임시 경로 제공
정답 보기
에디터 로딩 중...