데이터가 왜 이렇게 흩어져 있어?

"사용자 데이터는 PostgreSQL에 있고, 이벤트 로그는 S3에 있고, 결제 데이터는 API로 받아야 해."

첫날부터 멘붕이다. 왜 하나로 안 모아놨지?

현실은 이렇다:

각자 최선의 선택을 했지만, 분석하려면 다 모아야 한다. 이게 **Extract(수집)**의 역할이다.

오늘 만들 것

에디터 로딩 중...

나쁜 코드:

에디터 로딩 중...

좋은 코드:

에디터 로딩 중...

공통 인터페이스 = 일관된 방식으로 처리

오늘 이걸 만든다.