🏆60분
Step 5: 종합 대시보드 완성
Day 5: 대용량 로그 분석 파이프라인
Step 5: 종합 대시보드 완성
Apache Spark: 대용량 데이터 처리의 시작 > Day 5: 대용량 로그 분석 파이프라인
학습 목표
이번 주 학습 내용을 종합적으로 적용할 수 있다 실무 수준의 로그 분석 파이프라인을 완성할 수 있다
요구사항
5개 이상 분석 DataFrame 완성
캐싱 적용
함수로 모듈화
Window 함수 1개 이상 사용
코드 주석 포함
평가 기준
- • 분석 완성도 (30%)
- • 코드 품질 (25%)
- • 최적화 적용 (20%)
- • Window 함수 활용 (15%)
- • 창의적 분석 (10%)
최종 미션: 로그 분석 대시보드 완성
지금까지 만든 모든 것을 합쳐서 완성된 로그 분석 대시보드를 만드세요.
제출물
-
분석 결과 DataFrame 5개 이상
- traffic_summary: 전체 트래픽 요약
- hourly_trend: 시간대별 트렌드
- error_analysis: 에러 분석
- top_urls: 인기 페이지 Top 10
- user_behavior: 사용자 행동 분석
-
최적화 적용
- 캐싱 전략
- 적절한 파티션 설정
- Broadcast Join (필요시)
-
코드 품질
- 함수로 모듈화
- 주석으로 설명
- 재사용 가능한 구조
보너스 포인트
- Parquet으로 결과 저장
- 이상치 탐지 로직
- 예쁜 출력 포맷팅
힌트 보기
먼저 전체 구조를 설계하고 함수별로 구현 cache()는 logs_df 한 번만 Window 함수로 시간별 증감 계산 collect_list()로 사용자 여정 추적