30분
실습: 첫 번째 Spark 프로그램
Day 1: pandas로 10GB 처리하다 포기했다
실습: 첫 번째 Spark 프로그램
Apache Spark: 대용량 데이터 처리의 시작 > Day 1: pandas로 10GB 처리하다 포기했다
학습 목표
SparkSession을 생성할 수 있다 DataFrame을 만들고 기본 연산을 수행할 수 있다
Spark 개발 환경
Option 1: PySpark 로컬 설치 (추천)
에디터 로딩 중...
Option 2: Databricks Community Edition (무료)
- https://community.cloud.databricks.com 접속
- 회원가입 (무료)
- 클러스터 생성
- 노트북에서 바로 실행
SparkSession 생성
Spark를 쓰려면 SparkSession부터 만들어야 한다.
에디터 로딩 중...
appName: 작업 이름 (Web UI에 표시됨)master("local[*]"): 내 컴퓨터의 모든 코어 사용getOrCreate(): 이미 있으면 가져오고, 없으면 생성
첫 번째 DataFrame 만들기
pandas와 비슷하게 생겼다!
에디터 로딩 중...
아래 코드를 완성해보자.
에디터 로딩 중...
힌트 보기
- • spark.createDataFrame(data, columns)로 DataFrame 생성
- • df.show()로 데이터 출력
- • df.groupBy("col").agg(avg("col"))로 집계
- • df.filter(조건)으로 필터링
정답 보기
에디터 로딩 중...