15분
실전 프로젝트: NYC 택시 데이터 분석
Day 5: NYC 택시 데이터 분석 프로젝트
실전 프로젝트: NYC 택시 데이터 분석
pandas 고급 & 대용량 데이터 처리 > Day 5: NYC 택시 데이터 분석 프로젝트
학습 목표
프로젝트 목표와 데이터를 이해한다 분석 계획을 수립한다
실전 프로젝트: NYC 택시 데이터 분석
"이번 주에 배운 모든 것을 실전에 적용해보자"
배운 것들
| Day | 주제 | 핵심 기술 |
|---|---|---|
| 1 | 대용량 처리 | 청크, dtype, Parquet |
| 2 | 피벗/구조화 | MultiIndex, pivot_table, melt |
| 3 | 성능 최적화 | 벡터화, eval, 프로파일링 |
| 4 | Polars | Lazy, 고성능 처리 |
오늘: 이 모든 기술을 NYC 택시 데이터 분석에 적용
데이터 소개
NYC Yellow Taxi Trip Data
- 출처: NYC TLC (Taxi & Limousine Commission)
- 크기: 약 1GB (샘플)
- 행 수: 약 700만 건
- 기간: 2023년 1월
주요 컬럼
| 컬럼 | 설명 |
|---|---|
| tpep_pickup_datetime | 승차 시각 |
| tpep_dropoff_datetime | 하차 시각 |
| passenger_count | 승객 수 |
| trip_distance | 이동 거리 (마일) |
| PULocationID | 승차 지역 ID |
| DOLocationID | 하차 지역 ID |
| fare_amount | 기본 요금 |
| tip_amount | 팁 |
| total_amount | 총 요금 |
| payment_type | 결제 방식 |
분석 목표
1. 탐색적 분석 (EDA)
- 일별/시간대별 운행 패턴
- 거리별 요금 분포
- 팁 비율 분석
2. 비즈니스 인사이트
- 가장 수익성 높은 시간대?
- 인기 있는 승차/하차 지역?
- 팁을 많이 주는 조건?
3. 기술적 챌린지
- 1GB 데이터 효율적 처리
- pandas vs Polars 성능 비교
- 리포트 자동화