10분

이번 주 회고

Day 5: 대용량 로그 분석 파이프라인

학습 목표

이번 주 학습 내용을 정리한다 다음 단계 학습 방향을 파악한다

이번 주에 배운 것

Day 1: Spark 아키텍처

pandas의 메모리 한계와 Spark의 분산 처리
Driver와 Executor의 역할
Lazy Evaluation과 Action/Transformation

Day 2: DataFrame API

SQL과 유사한 DataFrame 연산
groupBy, Join, Window 함수
데이터 변환의 다양한 패턴

Day 3: Catalyst Optimizer

자동 최적화의 원리
explain()으로 실행 계획 분석
최적화를 돕는 코딩 패턴

Day 4: UDF & Pandas UDF

Python 함수를 Spark에서 사용하기
Pandas UDF로 성능 개선
UDF 사용 시 주의사항

Day 5: 실전 프로젝트

로그 파싱 파이프라인
트래픽/에러/사용자 분석
최적화 적용

이제 할 수 있는 것

10GB 이상 데이터 처리
SQL 지식을 Spark에 적용
실행 계획 분석 및 최적화
복잡한 로직의 UDF 작성

다음 주 예고: Spark 심화

Structured Streaming (실시간 처리)
Delta Lake (데이터 레이크)
성능 튜닝 고급 기법
Spark UI 분석

체크리스트

DataFrame API 주요 연산을 설명할 수 있다
explain()으로 실행 계획을 읽을 수 있다
UDF와 Pandas UDF의 차이를 안다
최적화 기법 3가지 이상을 적용할 수 있다
로그 분석 파이프라인을 완성했다

모두 체크했다면 이번 주 학습 완료!

Week 완료!다음 주차