30

데이터 품질 검증: Great Expectations

Day 5: 테스트와 발표

학습 목표

Great Expectations를 사용하여 데이터 품질을 검증할 수 있다 Expectation Suite를 정의할 수 있다 품질 검증 결과를 해석할 수 있다

미션: 데이터 품질 Expectation

Great Expectations로 데이터 품질 검증을 설정하세요.

요구사항

  1. dim_user Expectations

    • user_id NOT NULL
    • email 형식 검증
    • is_current는 true/false만
  2. fact_events Expectations

    • event_id UNIQUE
    • user_sk NOT NULL (Orphan 없음)
    • timestamp 범위 검증
  3. 실행 및 결과

    • Validation 실행
    • 결과 리포트 생성
에디터 로딩 중...
힌트 보기
  • ExpectationSuite는 여러 Expectation을 그룹화한다
  • mostly 파라미터로 일부 불일치를 허용할 수 있다 (예: 95% 일치)
  • SparkDFDataset으로 Spark DataFrame을 GE로 래핑한다
  • 결과의 result.success로 개별 Expectation 성공 여부 확인
정답 보기
에디터 로딩 중...