10

이번 주 회고

Day 5: 대용량 로그 분석 파이프라인

학습 목표

이번 주 학습 내용을 정리한다 다음 단계 학습 방향을 파악한다

이번 주에 배운 것

Day 1: Spark 아키텍처

  • pandas의 메모리 한계와 Spark의 분산 처리
  • Driver와 Executor의 역할
  • Lazy Evaluation과 Action/Transformation

Day 2: DataFrame API

  • SQL과 유사한 DataFrame 연산
  • groupBy, Join, Window 함수
  • 데이터 변환의 다양한 패턴

Day 3: Catalyst Optimizer

  • 자동 최적화의 원리
  • explain()으로 실행 계획 분석
  • 최적화를 돕는 코딩 패턴

Day 4: UDF & Pandas UDF

  • Python 함수를 Spark에서 사용하기
  • Pandas UDF로 성능 개선
  • UDF 사용 시 주의사항

Day 5: 실전 프로젝트

  • 로그 파싱 파이프라인
  • 트래픽/에러/사용자 분석
  • 최적화 적용

이제 할 수 있는 것

  • 10GB 이상 데이터 처리
  • SQL 지식을 Spark에 적용
  • 실행 계획 분석 및 최적화
  • 복잡한 로직의 UDF 작성

다음 주 예고: Spark 심화

  • Structured Streaming (실시간 처리)
  • Delta Lake (데이터 레이크)
  • 성능 튜닝 고급 기법
  • Spark UI 분석

체크리스트

  • DataFrame API 주요 연산을 설명할 수 있다
  • explain()으로 실행 계획을 읽을 수 있다
  • UDF와 Pandas UDF의 차이를 안다
  • 최적화 기법 3가지 이상을 적용할 수 있다
  • 로그 분석 파이프라인을 완성했다

모두 체크했다면 이번 주 학습 완료!