25분

DataFrame 생성: 어디서든 데이터를 가져온다

Day 2: SQL 잘하면 Spark도 잘한다

학습 목표

DataFrame을 다양한 방법으로 생성할 수 있다 기본 연산(show, printSchema)을 수행할 수 있다

DataFrame을 만드는 5가지 방법

1. 리스트에서 (테스트용)

에디터 로딩 중...

2. CSV 파일에서

에디터 로딩 중...

3. Parquet 파일에서 (권장!)

에디터 로딩 중...

4. JSON 파일에서

에디터 로딩 중...

5. 데이터베이스에서

에디터 로딩 중...

왜 Parquet인가?

포맷	압축률	읽기 속도	컬럼 선택
CSV	낮음	느림	전체 읽기
JSON	낮음	느림	전체 읽기
Parquet	높음	빠름	필요한 컬럼만

Parquet = 컬럼 기반 포맷 → 100개 컬럼 중 2개만 필요하면 2개만 읽음 → 압축률도 높아서 저장 공간 절약

실무에서는 Parquet이 표준.

에디터 로딩 중...

힌트 보기

• createDataFrame(data, columns)로 생성
• printSchema()로 스키마 확인
• count()로 row 수 확인
• describe()로 기술 통계

정답 보기

에디터 로딩 중...

시뮬레이터

Spark Visualizer

Spark 실행 계획과 변환을 시각화해보세요