15

1GB CSV 열었더니 컴퓨터가 멈췄다

Day 1: 1GB CSV 열었더니 컴퓨터가 멈췄다

학습 목표

대용량 데이터 처리의 현실적인 문제를 이해한다 pandas의 메모리 사용 패턴을 파악한다

1GB CSV 열었더니 컴퓨터가 멈췄다

"야, 이 로그 파일 분석 좀 해줘. 1GB밖에 안 돼."

선배가 던져준 CSV 파일. 1GB면 별거 아니지 않나?

에디터 로딩 중...

실행하자마자 팬이 미친 듯이 돌기 시작했다. 5분이 지나도 끝나지 않았다. 결국 "메모리 부족"으로 Jupyter가 죽었다.

내 노트북 RAM은 16GB인데, 1GB 파일을 왜 못 열어?


pandas의 불편한 진실

pandas는 전체 데이터를 메모리에 올린다. 그것도 CSV 크기보다 훨씬 많이.

에디터 로딩 중...

1GB CSV = 4~5GB 메모리

이게 pandas의 현실이다.


이번 주에 배울 것

16GB RAM으로 100GB 데이터를 처리하는 방법을 배운다.

Day주제핵심
1청크 처리조각내서 처리하기
2MultiIndex & Pivot복잡한 분석 구조
3성능 최적화10배 빠르게 만들기
4Polarspandas의 10배 빠른 대안
5프로젝트NYC 택시 1GB 분석

오늘은 첫 번째 무기, 청크 처리를 배운다.