데이터 엔지니어링 이란
데이터 인프라 구축
데이터 엔지니어링이란
데이터 엔지니어링은 조직 규모에서 데이터를 수집, 저장, 처리 및 전달하기 위한 시스템을 설계, 구축 및 유지 관리하는 데 중점을 둔 분야입니다.
핵심 작업
| 작업 | 설명 | |------|------| | 데이터 수집 | 다양한 소스에서 데이터 수집 | | 데이터 저장소 | 데이터 웨어하우스 설계 | | 데이터 처리 | ETL/ELT 파이프라인 | | 오케스트레이션 | 종속성 및 스케줄링 관리 | | 데이터 품질 | 데이터 품질 모니터링 |
기술 스택
- 웨어하우스: Snowflake, BigQuery, Redshift, Databricks
- 데이터 레이크: S3, Azure Data Lake, Delta Lake
- 처리: Apache Spark, dbt, Airflow
- 스트리밍: Kafka, Flink, Kinesis
- 오케스트레이션: Airflow, Dagster, Prefect
데이터 파이프라인 패턴
| 패턴 | 적용 | |------|------| | 배치 처리 | 대량 데이터 정기 처리 | | 스트림 처리 | 실시간 이벤트 처리 | | Lambda 아키텍처 | 배치와 스트림 결합 | | ELT | 로드 후 변환 |
데이터 엔지니어 역할
- 데이터 아키텍처 설계
- ETL/ELT 파이프라인 개발
- 쿼리 성능 최적화
- 가용성 및 안정성 보장
- 데이터 워크플로우 자동화
성공 지표
- 데이터 신선도
- 파이프라인 신뢰성(SLA)
- 처리 지연 시간
- 데이터 품질 점수
- 인프라 비용 효율성