Qu'est-ce que Qualité des données
Assurer l'exactitude et la complétude des données
Qu'est-ce que la qualité des données
Qualité des données est un ensemble de caractéristiques des données qui déterminent leur aptitude à être utilisées dans les processus métier et l'analytique.
Dimensions de qualité
| Dimension | Description | |-----------|-------------| | Exactitude | Correspondance avec le monde réel | | Complétude | Degré de remplissage | | Cohérence | Cohérence entre systèmes | | Actualité | Fraîcheur et ponctualité | | Validité | Conformité aux règles métier | | Unicité | Absence de doublons |
Types de vérifications
- Validation de schéma — vérification de structure
- Vérifications de plage — valeurs dans les limites permises
- Correspondance de motifs — conformité de format
- Intégrité référentielle — intégrité des relations
- Règles métier — logique métier
Outils
| Outil | Type | |-------|------| | Great Expectations | Framework Python | | dbt tests | Basé sur SQL | | Apache Griffin | Open-source | | Talend DQ | Entreprise | | Soda Core | DQ moderne |
Métriques de qualité
- Score de qualité des données (DQS)
- Taux d'erreur par champ
- Pourcentage de complétude
- Fraîcheur (temps depuis dernière mise à jour)
Pratiques d'implémentation
- Profilage des données à l'ingestion
- Vérifications automatisées dans pipeline
- Alerting sur dégradation de qualité
- Processus de data stewardship
- Documentation du dictionnaire de données