Phase 1Week 6Spark
Spark DAG Visualizer
Apache Spark의 실행 원리를 시각적으로 이해하세요. DAG, Stage, Task의 개념과 Narrow/Wide Transformation의 차이점을 직접 확인할 수 있습니다.
🔀
DAG 실행
RDD Lineage와 Lazy Evaluation
📊
Shuffle
Wide vs Narrow Transformation
⚡
Stage & Task
병렬 처리와 파티셔닝
💾
캐싱
RDD 캐싱으로 성능 최적화
Spark Visualizer 로딩 중...
💡 Spark란?
Apache Spark는 대용량 데이터 처리를 위한 통합 분석 엔진입니다. 인메모리 처리로 Hadoop MapReduce보다 최대 100배 빠른 성능을 제공합니다.
🎯 FDE 커리큘럼 연계
이 시뮬레이터는 FDE Academy Phase 1 Week 6 "Spark & 분산 처리" 과정의 실습 도구입니다. DAG 실행 원리를 직접 확인하며 학습하세요.
📚 핵심 개념
Narrow Transformation
- • 각 파티션이 독립적으로 처리됨
- • Shuffle 발생하지 않음
- • 예: map, filter, flatMap
- • 같은 Stage 내에서 실행
Wide Transformation
- • 여러 파티션 데이터가 필요함
- • Shuffle (네트워크 I/O) 발생
- • 예: reduceByKey, groupByKey, join
- • 새로운 Stage 생성
🎮 샘플 Spark Job
기본
Word Count
텍스트 파일에서 단어별 빈도 계산
Join
Join Operation
두 RDD를 조인하는 예제
집계
GroupBy Aggregation
그룹별 집계 연산
최적화
Caching Optimization
RDD 캐싱을 통한 반복 연산 최적화
비교
Narrow vs Wide
변환 유형별 성능 차이