Vad är Datalinjeföring
Spårning av dataursprung
Vad är Datalinjeföring
Datalinjeföring är spårning av datas kompletta väg från källa till konsument, inklusive alla transformationer, aggregeringar och förflyttningar mellan system.
Linjetyper
| Typ | Beskrivning | |-----|-------------| | Teknisk linje | På tabell-, kolumn-, SQL-nivå | | Affärslinje | Affärstermer och KPI:er | | Operativ linje | Jobb, scheman, beroenden | | Kolumnnivå | Fältnivå-transformationer |
Varför Linjeföring är Viktig
- Konsekvensanalys — vad som går sönder vid ändring
- Rotorsaksanalys — var felet uppstod
- Efterlevnad — GDPR, SOX-efterlevnad
- Dokumentation — förstå data
- Migration — planera övergångar
Verktyg
| Verktyg | Funktioner | |---------|------------| | Apache Atlas | Öppen källkod, Hadoop | | OpenLineage | Standard, integrationer | | DataHub | LinkedIn, grafbaserad | | Atlan | Modern datakatalog | | Collibra | Enterprise |
Automatisk Linjeinsamling
- SQL-parsning — frågeanalys
- API-integrationer — från Airflow, dbt, Spark
- Logganalys — från bearbetningssystem
- Metadatainsamling — från kataloger
Visualisering
- Beroendediagram
- Uppströms/nedströmsanalys
- Konsekvensbedömning
- Transformationstidslinje
Praktiska Tillämpningar
- Felsökning av dataproblem
- Efterlevnadsrapportering
- Datamigrationsplanering
- Introduktion av nya anställda
- Datatillgångsdokumentation