40

Step 2: 기본 트래픽 분석

Day 5: 대용량 로그 분석 파이프라인

학습 목표

groupBy와 집계 함수로 트래픽을 분석할 수 있다 다양한 관점에서 데이터를 요약할 수 있다

기본 분석 요구사항

1. 전체 요약 통계

  • 총 요청 수
  • 총 에러 수 / 에러율
  • 평균 응답 크기

2. 시간대별 분석

  • 시간대별 요청 수
  • 시간대별 에러율

3. 상태 코드 분석

  • 상태 코드별 분포
  • 응답 카테고리별 분포

4. URL 분석

  • Top 10 인기 페이지
  • Top 10 에러 페이지

5. 사용자/봇 분석

  • 봇 vs 실제 사용자 비율
  • IP별 요청 수 분포
에디터 로딩 중...
힌트 보기
  • when(조건, 값).otherwise(값)으로 조건부 집계
  • lit(값)으로 상수 컬럼 생성
  • _sum(when(...))로 조건부 합계
  • countDistinct()로 고유값 수
정답 보기
에디터 로딩 중...