🏆45분
도전과제: 주문 시스템 CDC 파이프라인
Delta Lake: ACID 트랜잭션과 Time Travel
도전과제: 주문 시스템 CDC 파이프라인
Spark 심화: Streaming & Delta Lake > Delta Lake: ACID 트랜잭션과 Time Travel
요구사항
Delta Lake 테이블 생성 및 초기 데이터 적재
MERGE로 CDC (I/U/D) 처리
Time Travel로 변경 전후 비교
OPTIMIZE로 파일 최적화
평가 기준
- • MERGE 로직 정확성 (40%)
- • Time Travel 쿼리 정확성 (20%)
- • OPTIMIZE 실행 (20%)
- • 코드 품질 및 주석 (20%)
시나리오
이커머스 주문 시스템의 CDC 데이터를 Delta Lake로 동기화하는 파이프라인을 구축합니다.
요구사항
1. 초기 데이터 (주문 테이블)
에디터 로딩 중...
2. CDC 변경 데이터
에디터 로딩 중...
3. 구현 항목
- Delta Lake 테이블 생성
- MERGE로 CDC 적용
- Time Travel로 적용 전/후 비교
- OPTIMIZE 실행
4. 제출물
- 완전히 동작하는 코드
- MERGE 전후 데이터 비교 결과
- Time Travel 쿼리 결과
힌트 보기
created_at은 INSERT 시에만, updated_at은 UPDATE 시에 설정 whenMatchedDelete는 condition만 있으면 됨 (set 불필요) history()로 버전 확인 후 versionAsOf 사용 OPTIMIZE 후 history()에서 OPTIMIZE 작업 확인 가능