15분
데이터 파이프라인의 핵심 구조
Day 3: 자료 구조
데이터 파이프라인의 핵심 구조
Python 기초 1: 변수, 자료형, 조건문, 반복문 > Day 3: 자료 구조
학습 목표
Python 자료 구조가 실무에서 어떻게 쓰이는지 이해한다 리스트, 딕셔너리, 집합의 역할을 구분할 수 있다
첫 번째 ETL 작업
"로그 파일에서 사용자 ID 추출해서 중복 제거하고, 각 ID별로 접속 횟수 세어줘"
간단해 보인다. 그런데...
에디터 로딩 중...
변수 1000개를 만들 건가? 각각 비교해서 중복을 찾을 건가? 이건 사람이 할 일이 아니다.
자료 구조가 필요한 이유
자료 구조 = 데이터를 효율적으로 담는 그릇
| 상황 | 필요한 그릇 | Python |
|---|---|---|
| 순서대로 데이터 모으기 | 줄 서서 기다리는 대기열 | 리스트 (List) |
| 중복 없이 모으기 | 출석부 (이름 한 번만) | 집합 (Set) |
| 키-값 연결하기 | 사전 (단어 → 뜻) | 딕셔너리 (Dict) |
| 절대 바뀌면 안 되는 데이터 | 금고 | 튜플 (Tuple) |
아까 그 문제, 자료 구조로 풀면?
에디터 로딩 중...
1000줄 코드가 3줄로 줄었다. 이게 자료 구조의 힘이다.
오늘 배울 것
- 리스트 (List) - 데이터를 순서대로 모으기
- 튜플 (Tuple) - 절대 바뀌면 안 되는 데이터
- 집합 (Set) - 중복 없는 데이터
- 딕셔너리 (Dictionary) - 키로 값 찾기
이 4가지만 알면 웬만한 데이터 처리는 다 할 수 있다.