25

요구사항부터 이해하자

Day 1: 처음부터 끝까지 혼자 만들어봐

학습 목표

비즈니스 요구사항을 기술 요구사항으로 변환할 수 있다 데이터 소스와 싱크를 파악할 수 있다

프로젝트 배경

"매출 대시보드 데이터가 왜 하루 늦게 나와요?" "사용자 행동 분석을 실시간으로 보고 싶어요." "부서마다 데이터가 달라서 회의할 때 싸워요."

이게 데이터 팀에 들어오는 요청의 현실이다.

우리가 만들 파이프라인은 이 문제를 해결한다:

  • 매일 새벽 2시에 자동 실행
  • 모든 소스 데이터를 통합
  • 품질 검증 후 분석용 테이블 제공

데이터 소스

소스설명데이터
PostgreSQL운영 DB사용자, 결제
S3 (JSON)이벤트 로그클릭, 페이지뷰
REST API외부 서비스환율, 날씨

데이터 모델 (Star Schema)

에디터 로딩 중...

왜 Star Schema인가?

  • BI 도구가 쿼리하기 쉽다
  • 조인이 단순하다 (Fact → Dim)
  • 집계 성능이 좋다

기술 요구사항

요구사항기술 선택이유
대용량 처리Spark분산 처리
ACID 보장Delta Lake트랜잭션 지원
스케줄링Airflow의존성 관리
품질 검증Great Expectations표준화된 검증

비기능 요구사항

  • SLA: 오전 6시 전 완료
  • 재시도: 최대 3회
  • 알림: 실패 시 Slack 알림
  • 모니터링: 처리 건수, 소요 시간 로깅