15분
데이터가 왜 이렇게 흩어져 있어?
Day 2: 데이터 수집 파이프라인
데이터가 왜 이렇게 흩어져 있어?
Phase 1 캡스톤: E2E 데이터 파이프라인 > Day 2: 데이터 수집 파이프라인
학습 목표
데이터 수집(Extract)의 필요성을 이해한다 다양한 데이터 소스의 특성을 파악한다
데이터가 왜 이렇게 흩어져 있어?
"사용자 데이터는 PostgreSQL에 있고, 이벤트 로그는 S3에 있고, 결제 데이터는 API로 받아야 해."
첫날부터 멘붕이다. 왜 하나로 안 모아놨지?
현실은 이렇다:
- 운영팀은 PostgreSQL을 쓴다 (안정성)
- 개발팀은 S3에 JSON을 쌓는다 (확장성)
- 결제 서비스는 외부 API다 (분리)
각자 최선의 선택을 했지만, 분석하려면 다 모아야 한다. 이게 **Extract(수집)**의 역할이다.
오늘 만들 것
에디터 로딩 중...
왜 공통 인터페이스가 필요한가?
나쁜 코드:
에디터 로딩 중...
좋은 코드:
에디터 로딩 중...
공통 인터페이스 = 일관된 방식으로 처리
오늘 이걸 만든다.