Qué es Linaje de datos
Seguimiento del origen de datos
Qué es el Linaje de Datos
Linaje de datos es el seguimiento de la ruta completa de los datos desde el origen hasta el consumidor, incluyendo todas las transformaciones, agregaciones y movimientos entre sistemas.
Tipos de Linaje
| Tipo | Descripción | |------|-------------| | Linaje Técnico | A nivel de tabla, columna, SQL | | Linaje de Negocio | Términos de negocio y KPIs | | Linaje Operacional | Jobs, cronogramas, dependencias | | Nivel de Columna | Transformaciones a nivel de campo |
Por qué importa el Linaje
- Análisis de impacto — qué se rompe al cambiar
- Análisis de causa raíz — de dónde vino el error
- Cumplimiento — adherencia a GDPR, SOX
- Documentación — entender los datos
- Migración — planificar transiciones
Herramientas
| Herramienta | Características | |-------------|-----------------| | Apache Atlas | Open-source, Hadoop | | OpenLineage | Estándar, integraciones | | DataHub | LinkedIn, basado en grafos | | Atlan | Catálogo de datos moderno | | Collibra | Enterprise |
Recopilación Automática
- Parsing SQL — análisis de consultas
- Integraciones API — desde Airflow, dbt, Spark
- Análisis de logs — de sistemas de procesamiento
- Cosecha de metadatos — de catálogos
Visualización
- Grafos de dependencias
- Análisis upstream/downstream
- Evaluación de impacto
- Línea de tiempo de transformaciones
Aplicaciones Prácticas
- Debugging de problemas de datos
- Reporting de cumplimiento
- Planificación de migración de datos
- Onboarding de nuevos empleados
- Documentación de activos de datos