15분
Raw 데이터는 쓸 수 없다
Day 3: 데이터 변환 파이프라인
Raw 데이터는 쓸 수 없다
Phase 1 캡스톤: E2E 데이터 파이프라인 > Day 3: 데이터 변환 파이프라인
학습 목표
데이터 변환(Transform)의 필요성을 이해한다 Bronze → Silver → Gold 레이어 구조를 파악한다
Raw 데이터는 쓸 수 없다
"데이터 뽑았으니까 분석해봐."
어제 추출한 데이터를 열어봤다.
에디터 로딩 중...
문제점:
- user_id가 문자열이었다가 숫자였다가
- email 대소문자가 제각각
- created_at 포맷이 다 다름
- null이 섞여 있음
- 같은 사람이 중복으로 들어옴
이걸로 분석하면 틀린 숫자가 나온다. Transform = Raw 데이터를 쓸 수 있게 만드는 과정
오늘 만들 것
에디터 로딩 중...
변환 단계별 목표
| 레이어 | 입력 | 출력 | 목표 |
|---|---|---|---|
| Bronze→Silver | Raw JSON/CSV | Delta 테이블 | 정제, 중복 제거, 타입 통일 |
| Silver→Gold | Delta 테이블 | Star Schema | 비즈니스 모델링, SCD 적용 |
오늘은 이 두 단계를 모두 구현한다.