25분
DataFrame 생성: 어디서든 데이터를 가져온다
Day 2: SQL 잘하면 Spark도 잘한다
DataFrame 생성: 어디서든 데이터를 가져온다
Apache Spark: 대용량 데이터 처리의 시작 > Day 2: SQL 잘하면 Spark도 잘한다
학습 목표
DataFrame을 다양한 방법으로 생성할 수 있다 기본 연산(show, printSchema)을 수행할 수 있다
DataFrame을 만드는 5가지 방법
1. 리스트에서 (테스트용)
에디터 로딩 중...
2. CSV 파일에서
에디터 로딩 중...
3. Parquet 파일에서 (권장!)
에디터 로딩 중...
4. JSON 파일에서
에디터 로딩 중...
5. 데이터베이스에서
에디터 로딩 중...
왜 Parquet인가?
| 포맷 | 압축률 | 읽기 속도 | 컬럼 선택 |
|---|---|---|---|
| CSV | 낮음 | 느림 | 전체 읽기 |
| JSON | 낮음 | 느림 | 전체 읽기 |
| Parquet | 높음 | 빠름 | 필요한 컬럼만 |
Parquet = 컬럼 기반 포맷 → 100개 컬럼 중 2개만 필요하면 2개만 읽음 → 압축률도 높아서 저장 공간 절약
실무에서는 Parquet이 표준.
에디터 로딩 중...
힌트 보기
- • createDataFrame(data, columns)로 생성
- • printSchema()로 스키마 확인
- • count()로 row 수 확인
- • describe()로 기술 통계
정답 보기
에디터 로딩 중...