Hva er Datalinje
Sporing av dataoprinnelse
Hva er Datalinje
Datalinje er sporing av datas komplette vei fra kilde til forbruker, inkludert alle transformasjoner, aggregeringer og bevegelser mellom systemer.
Linjetyper
| Type | Beskrivelse | |------|-------------| | Teknisk linje | På tabell-, kolonne-, SQL-nivå | | Forretningslinje | Forretningstermer og KPIer | | Operativ linje | Jobber, tidsplaner, avhengigheter | | Kolonnenivå | Feltnivå-transformasjoner |
Hvorfor Linje er Viktig
- Konsekvensanalyse — hva som bryter ved endring
- Rotårsaksanalyse — hvor feilen kom fra
- Overholdelse — GDPR, SOX-overholdelse
- Dokumentasjon — forstå data
- Migrasjon — planlegge overganger
Verktøy
| Verktøy | Funksjoner | |---------|------------| | Apache Atlas | Åpen kildekode, Hadoop | | OpenLineage | Standard, integrasjoner | | DataHub | LinkedIn, grafbasert | | Atlan | Moderne datakatalog | | Collibra | Enterprise |
Automatisk Linjeinnsamling
- SQL-parsing — spørringsanalyse
- API-integrasjoner — fra Airflow, dbt, Spark
- Logganalyse — fra behandlingssystemer
- Metadatainnhøsting — fra kataloger
Visualisering
- Avhengighetsdiagrammer
- Oppstrøms/nedstrømsanalyse
- Konsekvensvurdering
- Transformasjonstidslinje
Praktiske Anvendelser
- Feilsøking av dataproblemer
- Overholdelsesrapportering
- Datamigrasjonsplanlegging
- Introduksjon av nye ansatte
- Datatilgangsdokumentasjon