Деректер құбыры дегеніміз не
Автоматтандырылған деректерді өңдеу ағыны
Деректер құбыры дегеніміз не
Деректер құбыры — көздерден мақсатты жүйелерге деректерді алу, өңдеу және жеткізу үшін автоматтандырылған қадамдар тізбегі.
Құбыр түрлері
| Түрі | Сипаттама | Мысалдар | |------|-----------|----------| | Batch | Жоспарланған топтық өңдеу | Күнделікті есептер | | Streaming | Нақты уақытта өңдеу | IoT деректері, логтар | | Гибрид | Batch және streaming комбинациясы | Lambda/Kappa архитектурасы |
Құбыр компоненттері
- Source — деректер көздері (ДБ, API, файлдар)
- Ingestion — жүйеге жүктеу
- Processing — түрлендіру және байыту
- Storage — сақтау (DWH, Data Lake)
- Serving — тұтынушыларға жеткізу
Танымал құралдар
| Санат | Құралдар | |-------|----------| | Оркестрация | Apache Airflow, Prefect, Dagster | | Streaming | Apache Kafka, Spark Streaming | | Batch | Apache Spark, dbt | | Cloud | AWS Glue, Azure Data Factory, GCP Dataflow |
Үздік тәжірибелер
- Идемпотентті операциялар
- Экспоненциалды backoff қайта әрекет
- Data lineage және мониторинг
- Кіріс кезінде схема валидациясы
- Өнімділік үшін бөлу
Қателерді өңдеу үлгілері
- Сәтсіз жазбалар үшін Dead Letter Queue
- Upstream жүйелер үшін Circuit breaker
- Қалпына келтіру үшін Checkpointing