15

데이터가 왜 이렇게 흩어져 있어?

Day 2: 데이터 수집 파이프라인

학습 목표

데이터 수집(Extract)의 필요성을 이해한다 다양한 데이터 소스의 특성을 파악한다

데이터가 왜 이렇게 흩어져 있어?

"사용자 데이터는 PostgreSQL에 있고, 이벤트 로그는 S3에 있고, 결제 데이터는 API로 받아야 해."

첫날부터 멘붕이다. 왜 하나로 안 모아놨지?

현실은 이렇다:

  • 운영팀은 PostgreSQL을 쓴다 (안정성)
  • 개발팀은 S3에 JSON을 쌓는다 (확장성)
  • 결제 서비스는 외부 API다 (분리)

각자 최선의 선택을 했지만, 분석하려면 다 모아야 한다. 이게 **Extract(수집)**의 역할이다.


오늘 만들 것

에디터 로딩 중...

왜 공통 인터페이스가 필요한가?

나쁜 코드:

에디터 로딩 중...

좋은 코드:

에디터 로딩 중...

공통 인터페이스 = 일관된 방식으로 처리

오늘 이걸 만든다.