25분
요구사항부터 이해하자
Day 1: 처음부터 끝까지 혼자 만들어봐
요구사항부터 이해하자
Phase 1 캡스톤: E2E 데이터 파이프라인 > Day 1: 처음부터 끝까지 혼자 만들어봐
학습 목표
비즈니스 요구사항을 기술 요구사항으로 변환할 수 있다 데이터 소스와 싱크를 파악할 수 있다
프로젝트 배경
"매출 대시보드 데이터가 왜 하루 늦게 나와요?" "사용자 행동 분석을 실시간으로 보고 싶어요." "부서마다 데이터가 달라서 회의할 때 싸워요."
이게 데이터 팀에 들어오는 요청의 현실이다.
우리가 만들 파이프라인은 이 문제를 해결한다:
- 매일 새벽 2시에 자동 실행
- 모든 소스 데이터를 통합
- 품질 검증 후 분석용 테이블 제공
데이터 소스
| 소스 | 설명 | 데이터 |
|---|---|---|
| PostgreSQL | 운영 DB | 사용자, 결제 |
| S3 (JSON) | 이벤트 로그 | 클릭, 페이지뷰 |
| REST API | 외부 서비스 | 환율, 날씨 |
데이터 모델 (Star Schema)
에디터 로딩 중...
왜 Star Schema인가?
- BI 도구가 쿼리하기 쉽다
- 조인이 단순하다 (Fact → Dim)
- 집계 성능이 좋다
기술 요구사항
| 요구사항 | 기술 선택 | 이유 |
|---|---|---|
| 대용량 처리 | Spark | 분산 처리 |
| ACID 보장 | Delta Lake | 트랜잭션 지원 |
| 스케줄링 | Airflow | 의존성 관리 |
| 품질 검증 | Great Expectations | 표준화된 검증 |
비기능 요구사항
- SLA: 오전 6시 전 완료
- 재시도: 최대 3회
- 알림: 실패 시 Slack 알림
- 모니터링: 처리 건수, 소요 시간 로깅