Was ist Datenqualität
Sicherstellung von Datengenauigkeit und Vollständigkeit
Was ist Datenqualität
Datenqualität ist eine Reihe von Dateneigenschaften, die ihre Eignung für den Einsatz in Geschäftsprozessen und Analysen bestimmen.
Datenqualitätsdimensionen
| Dimension | Beschreibung | |-----------|--------------| | Genauigkeit | Übereinstimmung mit der realen Welt | | Vollständigkeit | Grad der Befüllung | | Konsistenz | Konsistenz über Systeme hinweg | | Aktualität | Zeitnähe und Frische | | Validität | Konformität mit Geschäftsregeln | | Eindeutigkeit | Keine Duplikate |
Prüfungstypen
- Schema-Validierung — Strukturprüfung
- Bereichsprüfungen — Werte in erlaubten Grenzen
- Musterabgleich — Formatkonformität
- Referentielle Integrität — Beziehungsintegrität
- Geschäftsregeln — Geschäftslogik
Tools
| Tool | Typ | |------|-----| | Great Expectations | Python-Framework | | dbt tests | SQL-basiert | | Apache Griffin | Open-Source | | Talend DQ | Enterprise | | Soda Core | Modernes DQ |
Qualitätsmetriken
- Data Quality Score (DQS)
- Fehlerrate nach Feld
- Vollständigkeitsprozentsatz
- Frische (Zeit seit letztem Update)
Implementierungspraktiken
- Data Profiling bei Einnahme
- Automatisierte Prüfungen in Pipeline
- Alerting bei Qualitätsverschlechterung
- Data Stewardship-Prozesse
- Data Dictionary-Dokumentation