15

실전 프로젝트: NYC 택시 데이터 분석

Day 5: NYC 택시 데이터 분석 프로젝트

학습 목표

프로젝트 목표와 데이터를 이해한다 분석 계획을 수립한다

실전 프로젝트: NYC 택시 데이터 분석

"이번 주에 배운 모든 것을 실전에 적용해보자"

배운 것들

Day주제핵심 기술
1대용량 처리청크, dtype, Parquet
2피벗/구조화MultiIndex, pivot_table, melt
3성능 최적화벡터화, eval, 프로파일링
4PolarsLazy, 고성능 처리

오늘: 이 모든 기술을 NYC 택시 데이터 분석에 적용


데이터 소개

NYC Yellow Taxi Trip Data

  • 출처: NYC TLC (Taxi & Limousine Commission)
  • 크기: 약 1GB (샘플)
  • 행 수: 약 700만 건
  • 기간: 2023년 1월

주요 컬럼

컬럼설명
tpep_pickup_datetime승차 시각
tpep_dropoff_datetime하차 시각
passenger_count승객 수
trip_distance이동 거리 (마일)
PULocationID승차 지역 ID
DOLocationID하차 지역 ID
fare_amount기본 요금
tip_amount
total_amount총 요금
payment_type결제 방식

분석 목표

1. 탐색적 분석 (EDA)

  • 일별/시간대별 운행 패턴
  • 거리별 요금 분포
  • 팁 비율 분석

2. 비즈니스 인사이트

  • 가장 수익성 높은 시간대?
  • 인기 있는 승차/하차 지역?
  • 팁을 많이 주는 조건?

3. 기술적 챌린지

  • 1GB 데이터 효율적 처리
  • pandas vs Polars 성능 비교
  • 리포트 자동화