🏆60분
최종 과제: 완전한 파이프라인 구축
Weekly Project: 실시간 이커머스 파이프라인
최종 과제: 완전한 파이프라인 구축
Spark 심화: Streaming & Delta Lake > Weekly Project: 실시간 이커머스 파이프라인
요구사항
3개 스트리밍 쿼리 동시 실행
각 쿼리 독립적 Checkpoint
fact_orders, agg_metrics, alerts 모두 저장
2분 실행 후 결과 요약
평가 기준
- • Phase 1-3 모두 동작 (60%)
- • 동시 실행 및 모니터링 (20%)
- • 결과 검증 및 요약 (10%)
- • 코드 품질 및 구조 (10%)
최종 과제: 모든 Phase 통합
Phase 1, 2, 3을 하나의 파이프라인으로 통합합니다.
요구사항
필수 기능
- Phase 1: Rate Source → fact_orders
- Phase 2: fact_orders → agg_metrics (5분 윈도우)
- Phase 3: fact_orders → alerts (이상 탐지)
동시 실행
- 3개 쿼리가 동시에 실행되어야 함
- 각 쿼리는 독립적인 Checkpoint
모니터링
- 각 쿼리 상태 출력
- 2분 후 전체 결과 요약
검증
- fact_orders: 최소 2000건
- agg_metrics: 최소 1개 윈도우
- alerts: 이상 주문 비율 확인 (~5%)
보너스 (선택)
- 지역별 집계 추가
- Time Travel 분석 (버전 비교)
- OPTIMIZE 실행
- Spark UI 분석 결과 첨부
제출물
- 완전히 동작하는 통합 코드
- 실행 결과 스크린샷
- README.md (실행 방법, 결과 요약)
힌트 보기
쿼리마다 다른 checkpoint 경로 사용
query.start()로 시작하고 변수에 저장
루프에서 각 쿼리의 lastProgress 확인
spark.read.format("delta")로 결과 확인
마지막에 모든 쿼리 stop()