45분
Step 3: 심화 분석 (Window 함수)
Day 5: 대용량 로그 분석 파이프라인
Step 3: 심화 분석 (Window 함수)
Apache Spark: 대용량 데이터 처리의 시작 > Day 5: 대용량 로그 분석 파이프라인
학습 목표
Window 함수로 시계열 분석을 수행할 수 있다 누적, 이동 평균, 순위 계산을 할 수 있다
심화 분석 요구사항
1. 시간별 트렌드
- 시간별 요청 수의 전 시간 대비 증감
- 누적 요청 수
2. 이동 평균
- 3시간 이동 평균 요청 수
- 이상치 탐지 (평균 대비 2배 이상)
3. 순위 분석
- 시간대별 Top URL (각 시간대에서 가장 많이 요청된 URL)
- IP별 활동 순위
4. 사용자 세션 분석
- IP별 첫 요청, 마지막 요청
- 추정 세션 시간
에디터 로딩 중...
힌트 보기
- • lag(col, n).over(window)로 이전 값
- • sum().over(window)로 누적
- • rowsBetween(-2, 0)로 이전 3개 포함 현재
- • row_number()로 순위 후 filter(rank == 1)
정답 보기
에디터 로딩 중...