30

실습: 첫 번째 Spark 프로그램

Day 1: pandas로 10GB 처리하다 포기했다

학습 목표

SparkSession을 생성할 수 있다 DataFrame을 만들고 기본 연산을 수행할 수 있다

Spark 개발 환경

Option 1: PySpark 로컬 설치 (추천)

에디터 로딩 중...

Option 2: Databricks Community Edition (무료)

  1. https://community.cloud.databricks.com 접속
  2. 회원가입 (무료)
  3. 클러스터 생성
  4. 노트북에서 바로 실행

SparkSession 생성

Spark를 쓰려면 SparkSession부터 만들어야 한다.

에디터 로딩 중...
  • appName: 작업 이름 (Web UI에 표시됨)
  • master("local[*]"): 내 컴퓨터의 모든 코어 사용
  • getOrCreate(): 이미 있으면 가져오고, 없으면 생성

첫 번째 DataFrame 만들기

pandas와 비슷하게 생겼다!

에디터 로딩 중...

아래 코드를 완성해보자.

에디터 로딩 중...
힌트 보기
  • spark.createDataFrame(data, columns)로 DataFrame 생성
  • df.show()로 데이터 출력
  • df.groupBy("col").agg(avg("col"))로 집계
  • df.filter(조건)으로 필터링
정답 보기
에디터 로딩 중...