20분
Why: 체계적 파이프라인이 필요한 이유
데이터 수집 & 전처리
Why: 체계적 파이프라인이 필요한 이유
Phase 3 캡스톤: Knowledge Graph 프로젝트 > 데이터 수집 & 전처리
학습 목표
데이터 파이프라인 아키텍처 이해
Why: Ad-hoc 수집의 한계
문제: 스파게티 코드
에디터 로딩 중...
문제점:
- 단일 실패 시 전체 재실행
- 테스트 불가능
- 재사용 불가
해결: 모듈화된 파이프라인
에디터 로딩 중...
파이프라인 원칙
| 원칙 | 설명 | 이점 |
|---|---|---|
| 단일 책임 | 각 컴포넌트는 한 가지만 | 테스트 용이 |
| 체크포인트 | 중간 결과 저장 | 재실행 효율 |
| 로깅 | 각 단계 통계 | 디버깅 용이 |
| 설정 분리 | 하드코딩 금지 | 유연성 |
핵심 포인트
- • 모듈화된 파이프라인 = 유지보수 용이
- • 체크포인트로 실패 복구
- • 각 단계별 통계 로깅