15분
1GB CSV 열었더니 컴퓨터가 멈췄다
Day 1: 1GB CSV 열었더니 컴퓨터가 멈췄다
1GB CSV 열었더니 컴퓨터가 멈췄다
pandas 고급 & 대용량 데이터 처리 > Day 1: 1GB CSV 열었더니 컴퓨터가 멈췄다
학습 목표
대용량 데이터 처리의 현실적인 문제를 이해한다 pandas의 메모리 사용 패턴을 파악한다
1GB CSV 열었더니 컴퓨터가 멈췄다
"야, 이 로그 파일 분석 좀 해줘. 1GB밖에 안 돼."
선배가 던져준 CSV 파일. 1GB면 별거 아니지 않나?
에디터 로딩 중...
실행하자마자 팬이 미친 듯이 돌기 시작했다. 5분이 지나도 끝나지 않았다. 결국 "메모리 부족"으로 Jupyter가 죽었다.
내 노트북 RAM은 16GB인데, 1GB 파일을 왜 못 열어?
pandas의 불편한 진실
pandas는 전체 데이터를 메모리에 올린다. 그것도 CSV 크기보다 훨씬 많이.
에디터 로딩 중...
1GB CSV = 4~5GB 메모리
이게 pandas의 현실이다.
이번 주에 배울 것
16GB RAM으로 100GB 데이터를 처리하는 방법을 배운다.
| Day | 주제 | 핵심 |
|---|---|---|
| 1 | 청크 처리 | 조각내서 처리하기 |
| 2 | MultiIndex & Pivot | 복잡한 분석 구조 |
| 3 | 성능 최적화 | 10배 빠르게 만들기 |
| 4 | Polars | pandas의 10배 빠른 대안 |
| 5 | 프로젝트 | NYC 택시 1GB 분석 |
오늘은 첫 번째 무기, 청크 처리를 배운다.