35분
S3에서 JSON 로그 가져오기
Day 2: 데이터 수집 파이프라인
S3에서 JSON 로그 가져오기
Phase 1 캡스톤: E2E 데이터 파이프라인 > Day 2: 데이터 수집 파이프라인
학습 목표
S3에서 JSON 파일을 읽어올 수 있다 날짜 기반 파티션 패턴을 처리할 수 있다
미션: S3JSONExtractor 구현
S3에 저장된 JSON 이벤트 로그를 추출하는 Extractor를 만드세요.
S3 구조
에디터 로딩 중...
요구사항
-
날짜 기반 추출
- 특정 날짜의 모든 JSON 파일 읽기
- 여러 시간대 데이터 병합
-
JSON 파싱
- JSONL(JSON Lines) 형식 지원
- 중첩 JSON 플래튼(flatten)
-
검증
- 필수 필드 존재 확인
- 이벤트 타임스탬프 범위 확인
에디터 로딩 중...
힌트 보기
- • boto3의 paginator를 사용하면 1000개 이상의 파일도 처리할 수 있다
- • JSONL(JSON Lines)은 각 줄이 독립적인 JSON 객체인 형식이다
- • 플래튼(flatten)은 중첩 구조를 평탄하게 만드는 것이다
- • MinIO는 S3 호환 API를 제공하므로 같은 코드로 테스트할 수 있다
정답 보기
에디터 로딩 중...