O que é Linhagem de dados
Rastreamento da origem dos dados
O que é Linhagem de Dados
Linhagem de dados é o rastreamento do caminho completo dos dados da fonte ao consumidor, incluindo todas as transformações, agregações e movimentos entre sistemas.
Tipos de Linhagem
| Tipo | Descrição | |------|-----------| | Linhagem Técnica | Nível de tabela, coluna, SQL | | Linhagem de Negócio | Termos de negócio e KPIs | | Linhagem Operacional | Jobs, cronogramas, dependências | | Nível de Coluna | Transformações em nível de campo |
Por que Linhagem Importa
- Análise de impacto — o que quebra ao mudar
- Análise de causa raiz — de onde veio o erro
- Conformidade — aderência a LGPD, SOX
- Documentação — entender os dados
- Migração — planejar transições
Ferramentas
| Ferramenta | Recursos | |------------|----------| | Apache Atlas | Open-source, Hadoop | | OpenLineage | Padrão, integrações | | DataHub | LinkedIn, baseado em grafos | | Atlan | Catálogo de dados moderno | | Collibra | Enterprise |
Coleta Automática
- Parsing SQL — análise de consultas
- Integrações API — de Airflow, dbt, Spark
- Análise de logs — de sistemas de processamento
- Coleta de metadados — de catálogos
Visualização
- Grafos de dependências
- Análise upstream/downstream
- Avaliação de impacto
- Timeline de transformações
Aplicações Práticas
- Debugging de problemas de dados
- Relatórios de conformidade
- Planejamento de migração de dados
- Onboarding de novos funcionários
- Documentação de ativos de dados