Phase 1Week 6Spark

Spark DAG Visualizer

Apache Spark의 실행 원리를 시각적으로 이해하세요. DAG, Stage, Task의 개념과 Narrow/Wide Transformation의 차이점을 직접 확인할 수 있습니다.

🔀

DAG 실행

RDD Lineage와 Lazy Evaluation

📊

Shuffle

Wide vs Narrow Transformation

Stage & Task

병렬 처리와 파티셔닝

💾

캐싱

RDD 캐싱으로 성능 최적화

Spark Visualizer 로딩 중...

💡 Spark란?

Apache Spark는 대용량 데이터 처리를 위한 통합 분석 엔진입니다. 인메모리 처리로 Hadoop MapReduce보다 최대 100배 빠른 성능을 제공합니다.

🎯 FDE 커리큘럼 연계

이 시뮬레이터는 FDE Academy Phase 1 Week 6 "Spark & 분산 처리" 과정의 실습 도구입니다. DAG 실행 원리를 직접 확인하며 학습하세요.

📚 핵심 개념

Narrow Transformation

  • • 각 파티션이 독립적으로 처리됨
  • • Shuffle 발생하지 않음
  • • 예: map, filter, flatMap
  • • 같은 Stage 내에서 실행

Wide Transformation

  • • 여러 파티션 데이터가 필요함
  • • Shuffle (네트워크 I/O) 발생
  • • 예: reduceByKey, groupByKey, join
  • • 새로운 Stage 생성

🎮 샘플 Spark Job

기본

Word Count

텍스트 파일에서 단어별 빈도 계산

Join

Join Operation

두 RDD를 조인하는 예제

집계

GroupBy Aggregation

그룹별 집계 연산

최적화

Caching Optimization

RDD 캐싱을 통한 반복 연산 최적화

비교

Narrow vs Wide

변환 유형별 성능 차이

다음 학습