🏆60

Step 5: 종합 대시보드 완성

Day 5: 대용량 로그 분석 파이프라인

학습 목표

이번 주 학습 내용을 종합적으로 적용할 수 있다 실무 수준의 로그 분석 파이프라인을 완성할 수 있다

요구사항

5개 이상 분석 DataFrame 완성

캐싱 적용

함수로 모듈화

Window 함수 1개 이상 사용

코드 주석 포함

평가 기준
  • 분석 완성도 (30%)
  • 코드 품질 (25%)
  • 최적화 적용 (20%)
  • Window 함수 활용 (15%)
  • 창의적 분석 (10%)

최종 미션: 로그 분석 대시보드 완성

지금까지 만든 모든 것을 합쳐서 완성된 로그 분석 대시보드를 만드세요.

제출물

  1. 분석 결과 DataFrame 5개 이상

    • traffic_summary: 전체 트래픽 요약
    • hourly_trend: 시간대별 트렌드
    • error_analysis: 에러 분석
    • top_urls: 인기 페이지 Top 10
    • user_behavior: 사용자 행동 분석
  2. 최적화 적용

    • 캐싱 전략
    • 적절한 파티션 설정
    • Broadcast Join (필요시)
  3. 코드 품질

    • 함수로 모듈화
    • 주석으로 설명
    • 재사용 가능한 구조

보너스 포인트

  • Parquet으로 결과 저장
  • 이상치 탐지 로직
  • 예쁜 출력 포맷팅
힌트 보기
먼저 전체 구조를 설계하고 함수별로 구현
cache()는 logs_df 한 번만
Window 함수로 시간별 증감 계산
collect_list()로 사용자 여정 추적