O que é Qualidade de Dados
Garantir precisão e completude dos dados
O que é Qualidade de Dados
Qualidade de Dados é um conjunto de características de dados que determinam sua adequação para uso em processos de negócio e análise.
Dimensões de Qualidade
| Dimensão | Descrição | |----------|-----------| | Precisão | Correspondência com o mundo real | | Completude | Grau de preenchimento | | Consistência | Consistência entre sistemas | | Atualidade | Frescura e pontualidade | | Validade | Conformidade com regras de negócio | | Unicidade | Ausência de duplicatas |
Tipos de Verificações
- Validação de schema — verificação de estrutura
- Verificações de intervalo — valores em limites permitidos
- Correspondência de padrões — conformidade de formato
- Integridade referencial — integridade de relacionamentos
- Regras de negócio — lógica de negócio
Ferramentas
| Ferramenta | Tipo | |------------|------| | Great Expectations | Framework Python | | dbt tests | Baseado em SQL | | Apache Griffin | Open-source | | Talend DQ | Enterprise | | Soda Core | DQ moderno |
Métricas de Qualidade
- Data Quality Score (DQS)
- Taxa de erro por campo
- Percentual de completude
- Frescura (tempo desde última atualização)
Práticas de Implementação
- Perfilamento de dados na ingestão
- Verificações automáticas no pipeline
- Alertas em degradação de qualidade
- Processos de data stewardship
- Documentação do dicionário de dados