15분
Data-aware: 데이터 도착하면 실행
Day 3: 매일 새벽 3시에 자동 실행
Data-aware: 데이터 도착하면 실행
Apache Airflow - 워크플로우 오케스트레이션 > Day 3: 매일 새벽 3시에 자동 실행
학습 목표
Dataset 기반 스케줄링을 이해한다 DAG 간 데이터 의존성을 설정할 수 있다
시간 기반의 한계
에디터 로딩 중...
문제: DAG A가 03:30에 끝나면? DAG B는 파일 없이 실패한다.
Dataset 기반 스케줄링 (Airflow 2.4+)
"데이터가 준비되면 실행"
에디터 로딩 중...
동작 방식
에디터 로딩 중...
시간과 상관없이, 데이터가 준비되면 다음 DAG가 실행된다.
여러 Dataset 의존성
에디터 로딩 중...
실무 활용
에디터 로딩 중...
extract가 5분 늦게 끝나도, transform은 자동으로 기다렸다가 실행된다.
주의사항
- Airflow 2.4 이상 필요
- Dataset URI는 실제 경로일 필요 없음 (논리적 식별자)
- 현재는 "업데이트됨" 이벤트만 지원 (내용 변경 감지는 못 함)