Mikä on Tietojen laatu
Tietojen tarkkuuden ja täydellisyyden varmistaminen
Mikä on tietojen laatu
Tietojen laatu on joukko tietojen ominaisuuksia, jotka määrittävät niiden sopivuuden käytettäväksi liiketoimintaprosesseissa ja analytiikassa.
Tietojen laadun ulottuvuudet
| Ulottuvuus | Kuvaus | |------------|--------| | Tarkkuus | Vastaavuus todellisuuteen | | Täydellisyys | Täytön aste | | Johdonmukaisuus | Johdonmukaisuus järjestelmien välillä | | Ajankohtaisuus | Tuoreus ja ajantasaisuus | | Validiteetti | Liiketoimintasääntöjen noudattaminen | | Ainutlaatuisuus | Ei kaksoiskappaleita |
Tarkistustyypit
- Skeeman validointi — rakenteen tarkistus
- Aluetarkistukset — arvot sallituissa rajoissa
- Kuvion täsmäytys — muodon vastaavuus
- Viite-eheys — suhteiden eheys
- Liiketoimintasäännöt — liiketoimintalogiikka
Työkalut
| Työkalu | Tyyppi | |---------|--------| | Great Expectations | Python-kehys | | dbt tests | SQL-pohjainen | | Apache Griffin | Avoin lähdekoodi | | Talend DQ | Yritys | | Soda Core | Moderni DQ |
Laatumittarit
- Tietojen laatupisteet (DQS)
- Virhetaso kentittäin
- Täydellisyysprosentti
- Tuoreus (aika viimeisimmästä päivityksestä)
Toteutuskäytännöt
- Tietojen profilointi syötteessä
- Automaattiset tarkistukset putkessa
- Hälytys laadun heikkenemisestä
- Data stewardship -prosessit
- Tietosanakirjan dokumentointi