Vad är Datakvalitet
Säkerställa datanoggrannhet och fullständighet
Vad är Datakvalitet
Datakvalitet är en uppsättning dataegenskaper som bestämmer dess lämplighet för användning i affärsprocesser och analys.
Datakvalitetsdimensioner
| Dimension | Beskrivning | |-----------|-------------| | Noggrannhet | Överensstämmelse med verkligheten | | Fullständighet | Grad av ifyllnad | | Konsistens | Konsistens mellan system | | Aktualitet | Färskhet och aktualitet | | Validitet | Överensstämmelse med affärsregler | | Unikhet | Inga dubbletter |
Typer av kontroller
- Schemavalidering — strukturverifiering
- Intervallkontroller — värden inom tillåtna gränser
- Mönstermatchning — formatöverensstämmelse
- Referensintegritet — relationsintegritet
- Affärsregler — affärslogik
Verktyg
| Verktyg | Typ | |---------|-----| | Great Expectations | Python-ramverk | | dbt tests | SQL-baserad | | Apache Griffin | Öppen källkod | | Talend DQ | Enterprise | | Soda Core | Modern DQ |
Kvalitetsmetriker
- Data Quality Score (DQS)
- Felfrekvens per fält
- Fullständighetsprocent
- Färskhet (tid sedan senaste uppdatering)
Implementeringspraxis
- Dataprofilering vid intag
- Automatiserade kontroller i pipeline
- Varning vid kvalitetsförsämring
- Data stewardship-processer
- Datadokumentdokumentation