35

S3에서 JSON 로그 가져오기

Day 2: 데이터 수집 파이프라인

학습 목표

S3에서 JSON 파일을 읽어올 수 있다 날짜 기반 파티션 패턴을 처리할 수 있다

미션: S3JSONExtractor 구현

S3에 저장된 JSON 이벤트 로그를 추출하는 Extractor를 만드세요.

S3 구조

에디터 로딩 중...

요구사항

  1. 날짜 기반 추출

    • 특정 날짜의 모든 JSON 파일 읽기
    • 여러 시간대 데이터 병합
  2. JSON 파싱

    • JSONL(JSON Lines) 형식 지원
    • 중첩 JSON 플래튼(flatten)
  3. 검증

    • 필수 필드 존재 확인
    • 이벤트 타임스탬프 범위 확인
에디터 로딩 중...
힌트 보기
  • boto3의 paginator를 사용하면 1000개 이상의 파일도 처리할 수 있다
  • JSONL(JSON Lines)은 각 줄이 독립적인 JSON 객체인 형식이다
  • 플래튼(flatten)은 중첩 구조를 평탄하게 만드는 것이다
  • MinIO는 S3 호환 API를 제공하므로 같은 코드로 테스트할 수 있다
정답 보기
에디터 로딩 중...