데이터 파이프라인 이란
자동화된 데이터 처리 흐름
데이터 파이프라인이란
데이터 파이프라인은 소스에서 대상 시스템으로 데이터를 추출, 처리, 전달하는 자동화된 단계 시퀀스입니다.
파이프라인 유형
| 유형 | 설명 | 예시 | |------|------|------| | 배치 | 예약된 배치 처리 | 일일 보고서 | | 스트리밍 | 실시간 처리 | IoT 데이터, 로그 | | 하이브리드 | 배치와 스트리밍 조합 | Lambda/Kappa 아키텍처 |
파이프라인 구성요소
- Source — 데이터 소스(DB, API, 파일)
- Ingestion — 시스템 로딩
- Processing — 변환 및 보강
- Storage — 저장소(DWH, Data Lake)
- Serving — 소비자 전달
인기 도구
| 카테고리 | 도구 | |----------|------| | 오케스트레이션 | Apache Airflow, Prefect, Dagster | | 스트리밍 | Apache Kafka, Spark Streaming | | 배치 | Apache Spark, dbt | | 클라우드 | AWS Glue, Azure Data Factory, GCP Dataflow |
모범 사례
- 멱등 연산
- 지수 백오프 재시도
- 데이터 계보 및 모니터링
- 수집 시 스키마 검증
- 성능을 위한 파티셔닝
오류 처리 패턴
- 실패 레코드용 Dead Letter Queue
- 업스트림 시스템용 서킷 브레이커
- 복구용 체크포인팅