🏆60

최종 과제: 완전한 파이프라인 구축

Weekly Project: 실시간 이커머스 파이프라인

요구사항

3개 스트리밍 쿼리 동시 실행

각 쿼리 독립적 Checkpoint

fact_orders, agg_metrics, alerts 모두 저장

2분 실행 후 결과 요약

평가 기준
  • Phase 1-3 모두 동작 (60%)
  • 동시 실행 및 모니터링 (20%)
  • 결과 검증 및 요약 (10%)
  • 코드 품질 및 구조 (10%)

최종 과제: 모든 Phase 통합

Phase 1, 2, 3을 하나의 파이프라인으로 통합합니다.


요구사항

필수 기능

  1. Phase 1: Rate Source → fact_orders
  2. Phase 2: fact_orders → agg_metrics (5분 윈도우)
  3. Phase 3: fact_orders → alerts (이상 탐지)

동시 실행

  • 3개 쿼리가 동시에 실행되어야 함
  • 각 쿼리는 독립적인 Checkpoint

모니터링

  • 각 쿼리 상태 출력
  • 2분 후 전체 결과 요약

검증

  • fact_orders: 최소 2000건
  • agg_metrics: 최소 1개 윈도우
  • alerts: 이상 주문 비율 확인 (~5%)

보너스 (선택)

  1. 지역별 집계 추가
  2. Time Travel 분석 (버전 비교)
  3. OPTIMIZE 실행
  4. Spark UI 분석 결과 첨부

제출물

  1. 완전히 동작하는 통합 코드
  2. 실행 결과 스크린샷
  3. README.md (실행 방법, 결과 요약)
힌트 보기
쿼리마다 다른 checkpoint 경로 사용
query.start()로 시작하고 변수에 저장
루프에서 각 쿼리의 lastProgress 확인
spark.read.format("delta")로 결과 확인
마지막에 모든 쿼리 stop()