Mis on Andmetoru
Automatiseeritud andmetöötluse voog
Mis on Data Pipeline
Data Pipeline on automatiseeritud sammude jada andmete eraldamiseks, töötlemiseks ja edastamiseks allikatest sihtüstemeisse.
Toru tüübid
| Tüüp | Kirjeldus | Näited | |------|-----------|--------| | Batch | Ajastatud pakktöötlus | Päevaaruanded | | Streaming | Reaalajas töötlus | IoT andmed, logid | | Hübriid | Batch ja streaming kombinatsioon | Lambda/Kappa arhitektuur |
Toru komponendid
- Source — andmeallikad (DB, API, failid)
- Ingestion — süsteemi laadimine
- Processing — teisendused ja rikastamine
- Storage — salvestus (DWH, Data Lake)
- Serving — tarbijaile edastamine
Populaarsed tööriistad
| Kategooria | Tööriistad | |------------|------------| | Orkestratsioon | Apache Airflow, Prefect, Dagster | | Streaming | Apache Kafka, Spark Streaming | | Batch | Apache Spark, dbt | | Pilv | AWS Glue, Azure Data Factory, GCP Dataflow |
Parimad praktikad
- Idempotentsed operatsioonid
- Eksponentsiaalse backoffiga uuesti proovimine
- Data lineage ja seire
- Skeemi valideerimine vastuvõtul
- Partitsioneerimine jõudluse jaoks
Veakäsitluse mustrid
- Dead Letter Queue ebaõnnestunud kirjetele
- Circuit breaker ülesvoolu süsteemidele
- Checkpointing taastamiseks