15

데이터 파이프라인의 핵심 구조

Day 3: 자료 구조

학습 목표

Python 자료 구조가 실무에서 어떻게 쓰이는지 이해한다 리스트, 딕셔너리, 집합의 역할을 구분할 수 있다

첫 번째 ETL 작업

"로그 파일에서 사용자 ID 추출해서 중복 제거하고, 각 ID별로 접속 횟수 세어줘"

간단해 보인다. 그런데...

에디터 로딩 중...

변수 1000개를 만들 건가? 각각 비교해서 중복을 찾을 건가? 이건 사람이 할 일이 아니다.


자료 구조가 필요한 이유

자료 구조 = 데이터를 효율적으로 담는 그릇

상황필요한 그릇Python
순서대로 데이터 모으기줄 서서 기다리는 대기열리스트 (List)
중복 없이 모으기출석부 (이름 한 번만)집합 (Set)
키-값 연결하기사전 (단어 → 뜻)딕셔너리 (Dict)
절대 바뀌면 안 되는 데이터금고튜플 (Tuple)

아까 그 문제, 자료 구조로 풀면?

에디터 로딩 중...

1000줄 코드가 3줄로 줄었다. 이게 자료 구조의 힘이다.


오늘 배울 것

  1. 리스트 (List) - 데이터를 순서대로 모으기
  2. 튜플 (Tuple) - 절대 바뀌면 안 되는 데이터
  3. 집합 (Set) - 중복 없는 데이터
  4. 딕셔너리 (Dictionary) - 키로 값 찾기

이 4가지만 알면 웬만한 데이터 처리는 다 할 수 있다.