20분
Parquet: CSV보다 10배 효율적인 포맷
Day 1: 1GB CSV 열었더니 컴퓨터가 멈췄다
Parquet: CSV보다 10배 효율적인 포맷
pandas 고급 & 대용량 데이터 처리 > Day 1: 1GB CSV 열었더니 컴퓨터가 멈췄다
학습 목표
Parquet 파일 포맷의 장점을 이해한다 CSV와 Parquet 성능을 비교한다
CSV vs Parquet 비교
Parquet는 컬럼 기반 바이너리 포맷으로, CSV 대비:
- 파일 크기: 1/5 ~ 1/10
- 읽기 속도: 3~10배 빠름
- 컬럼 선택 읽기: 매우 빠름
- dtype 보존: 자동
요구사항
- 샘플 데이터를 CSV와 Parquet로 저장
- 파일 크기 비교
- 전체 읽기 속도 비교
- 특정 컬럼만 읽기 속도 비교
에디터 로딩 중...
정답 보기
에디터 로딩 중...