20

Parquet: CSV보다 10배 효율적인 포맷

Day 1: 1GB CSV 열었더니 컴퓨터가 멈췄다

학습 목표

Parquet 파일 포맷의 장점을 이해한다 CSV와 Parquet 성능을 비교한다

CSV vs Parquet 비교

Parquet는 컬럼 기반 바이너리 포맷으로, CSV 대비:

  • 파일 크기: 1/5 ~ 1/10
  • 읽기 속도: 3~10배 빠름
  • 컬럼 선택 읽기: 매우 빠름
  • dtype 보존: 자동

요구사항

  1. 샘플 데이터를 CSV와 Parquet로 저장
  2. 파일 크기 비교
  3. 전체 읽기 속도 비교
  4. 특정 컬럼만 읽기 속도 비교
에디터 로딩 중...
정답 보기
에디터 로딩 중...