Qué es Calidad de Datos
Asegurar precisión y completitud de datos
Qué es la Calidad de Datos
Calidad de Datos es un conjunto de características de datos que determinan su idoneidad para uso en procesos de negocio y análisis.
Dimensiones de Calidad
| Dimensión | Descripción | |-----------|-------------| | Precisión | Correspondencia con el mundo real | | Completitud | Grado de llenado | | Consistencia | Consistencia entre sistemas | | Oportunidad | Actualidad y frescura | | Validez | Conformidad con reglas de negocio | | Unicidad | Ausencia de duplicados |
Tipos de Verificaciones
- Validación de esquema — verificación de estructura
- Verificaciones de rango — valores en límites permitidos
- Coincidencia de patrones — conformidad de formato
- Integridad referencial — integridad de relaciones
- Reglas de negocio — lógica de negocio
Herramientas
| Herramienta | Tipo | |-------------|------| | Great Expectations | Framework Python | | dbt tests | Basado en SQL | | Apache Griffin | Open-source | | Talend DQ | Enterprise | | Soda Core | DQ moderno |
Métricas de Calidad
- Data Quality Score (DQS)
- Tasa de error por campo
- Porcentaje de completitud
- Frescura (tiempo desde última actualización)
Prácticas de Implementación
- Perfilado de datos en ingesta
- Verificaciones automáticas en pipeline
- Alertas en degradación de calidad
- Procesos de data stewardship
- Documentación de diccionario de datos