30분
데이터 품질 검증: Great Expectations
Day 5: 테스트와 발표
데이터 품질 검증: Great Expectations
Phase 1 캡스톤: E2E 데이터 파이프라인 > Day 5: 테스트와 발표
학습 목표
Great Expectations를 사용하여 데이터 품질을 검증할 수 있다 Expectation Suite를 정의할 수 있다 품질 검증 결과를 해석할 수 있다
미션: 데이터 품질 Expectation
Great Expectations로 데이터 품질 검증을 설정하세요.
요구사항
-
dim_user Expectations
- user_id NOT NULL
- email 형식 검증
- is_current는 true/false만
-
fact_events Expectations
- event_id UNIQUE
- user_sk NOT NULL (Orphan 없음)
- timestamp 범위 검증
-
실행 및 결과
- Validation 실행
- 결과 리포트 생성
에디터 로딩 중...
힌트 보기
- • ExpectationSuite는 여러 Expectation을 그룹화한다
- • mostly 파라미터로 일부 불일치를 허용할 수 있다 (예: 95% 일치)
- • SparkDFDataset으로 Spark DataFrame을 GE로 래핑한다
- • 결과의 result.success로 개별 Expectation 성공 여부 확인
정답 보기
에디터 로딩 중...