25

DataFrame 생성: 어디서든 데이터를 가져온다

Day 2: SQL 잘하면 Spark도 잘한다

학습 목표

DataFrame을 다양한 방법으로 생성할 수 있다 기본 연산(show, printSchema)을 수행할 수 있다

DataFrame을 만드는 5가지 방법

1. 리스트에서 (테스트용)

에디터 로딩 중...

2. CSV 파일에서

에디터 로딩 중...

3. Parquet 파일에서 (권장!)

에디터 로딩 중...

4. JSON 파일에서

에디터 로딩 중...

5. 데이터베이스에서

에디터 로딩 중...

왜 Parquet인가?

포맷압축률읽기 속도컬럼 선택
CSV낮음느림전체 읽기
JSON낮음느림전체 읽기
Parquet높음빠름필요한 컬럼만

Parquet = 컬럼 기반 포맷 → 100개 컬럼 중 2개만 필요하면 2개만 읽음 → 압축률도 높아서 저장 공간 절약

실무에서는 Parquet이 표준.

에디터 로딩 중...
힌트 보기
  • createDataFrame(data, columns)로 생성
  • printSchema()로 스키마 확인
  • count()로 row 수 확인
  • describe()로 기술 통계
정답 보기
에디터 로딩 중...