40분
Step 2: 기본 트래픽 분석
Day 5: 대용량 로그 분석 파이프라인
Step 2: 기본 트래픽 분석
Apache Spark: 대용량 데이터 처리의 시작 > Day 5: 대용량 로그 분석 파이프라인
학습 목표
groupBy와 집계 함수로 트래픽을 분석할 수 있다 다양한 관점에서 데이터를 요약할 수 있다
기본 분석 요구사항
1. 전체 요약 통계
- 총 요청 수
- 총 에러 수 / 에러율
- 평균 응답 크기
2. 시간대별 분석
- 시간대별 요청 수
- 시간대별 에러율
3. 상태 코드 분석
- 상태 코드별 분포
- 응답 카테고리별 분포
4. URL 분석
- Top 10 인기 페이지
- Top 10 에러 페이지
5. 사용자/봇 분석
- 봇 vs 실제 사용자 비율
- IP별 요청 수 분포
에디터 로딩 중...
힌트 보기
- • when(조건, 값).otherwise(값)으로 조건부 집계
- • lit(값)으로 상수 컬럼 생성
- • _sum(when(...))로 조건부 합계
- • countDistinct()로 고유값 수
정답 보기
에디터 로딩 중...