15

Raw 데이터는 쓸 수 없다

Day 3: 데이터 변환 파이프라인

학습 목표

데이터 변환(Transform)의 필요성을 이해한다 Bronze → Silver → Gold 레이어 구조를 파악한다

Raw 데이터는 쓸 수 없다

"데이터 뽑았으니까 분석해봐."

어제 추출한 데이터를 열어봤다.

에디터 로딩 중...

문제점:

  • user_id가 문자열이었다가 숫자였다가
  • email 대소문자가 제각각
  • created_at 포맷이 다 다름
  • null이 섞여 있음
  • 같은 사람이 중복으로 들어옴

이걸로 분석하면 틀린 숫자가 나온다. Transform = Raw 데이터를 쓸 수 있게 만드는 과정


오늘 만들 것

에디터 로딩 중...

변환 단계별 목표

레이어입력출력목표
Bronze→SilverRaw JSON/CSVDelta 테이블정제, 중복 제거, 타입 통일
Silver→GoldDelta 테이블Star Schema비즈니스 모델링, SCD 적용

오늘은 이 두 단계를 모두 구현한다.