30분

실습: 첫 번째 Spark 프로그램

Day 1: pandas로 10GB 처리하다 포기했다

학습 목표

SparkSession을 생성할 수 있다 DataFrame을 만들고 기본 연산을 수행할 수 있다

Spark 개발 환경

Option 1: PySpark 로컬 설치 (추천)

에디터 로딩 중...

Option 2: Databricks Community Edition (무료)

https://community.cloud.databricks.com 접속
회원가입 (무료)
클러스터 생성
노트북에서 바로 실행

SparkSession 생성

Spark를 쓰려면 SparkSession부터 만들어야 한다.

에디터 로딩 중...

appName: 작업 이름 (Web UI에 표시됨)
master("local[*]"): 내 컴퓨터의 모든 코어 사용
getOrCreate(): 이미 있으면 가져오고, 없으면 생성

첫 번째 DataFrame 만들기

pandas와 비슷하게 생겼다!

에디터 로딩 중...

아래 코드를 완성해보자.

에디터 로딩 중...

힌트 보기

• spark.createDataFrame(data, columns)로 DataFrame 생성
• df.show()로 데이터 출력
• df.groupBy("col").agg(avg("col"))로 집계
• df.filter(조건)으로 필터링

정답 보기

에디터 로딩 중...

시뮬레이터

Spark Visualizer

Spark 실행 계획과 변환을 시각화해보세요