10분
이번 주 회고
Day 5: 대용량 로그 분석 파이프라인
이번 주 회고
Apache Spark: 대용량 데이터 처리의 시작 > Day 5: 대용량 로그 분석 파이프라인
학습 목표
이번 주 학습 내용을 정리한다 다음 단계 학습 방향을 파악한다
이번 주에 배운 것
Day 1: Spark 아키텍처
- pandas의 메모리 한계와 Spark의 분산 처리
- Driver와 Executor의 역할
- Lazy Evaluation과 Action/Transformation
Day 2: DataFrame API
- SQL과 유사한 DataFrame 연산
- groupBy, Join, Window 함수
- 데이터 변환의 다양한 패턴
Day 3: Catalyst Optimizer
- 자동 최적화의 원리
- explain()으로 실행 계획 분석
- 최적화를 돕는 코딩 패턴
Day 4: UDF & Pandas UDF
- Python 함수를 Spark에서 사용하기
- Pandas UDF로 성능 개선
- UDF 사용 시 주의사항
Day 5: 실전 프로젝트
- 로그 파싱 파이프라인
- 트래픽/에러/사용자 분석
- 최적화 적용
이제 할 수 있는 것
- 10GB 이상 데이터 처리
- SQL 지식을 Spark에 적용
- 실행 계획 분석 및 최적화
- 복잡한 로직의 UDF 작성
다음 주 예고: Spark 심화
- Structured Streaming (실시간 처리)
- Delta Lake (데이터 레이크)
- 성능 튜닝 고급 기법
- Spark UI 분석
체크리스트
- DataFrame API 주요 연산을 설명할 수 있다
- explain()으로 실행 계획을 읽을 수 있다
- UDF와 Pandas UDF의 차이를 안다
- 최적화 기법 3가지 이상을 적용할 수 있다
- 로그 분석 파이프라인을 완성했다
모두 체크했다면 이번 주 학습 완료!