Qu'est-ce que Lignage de données
Suivi de l'origine des données
Qu'est-ce que le lignage de données
Lignage de données est le suivi du chemin complet des données de la source au consommateur, incluant toutes les transformations, agrégations et mouvements entre systèmes.
Types de Lignage
| Type | Description | |------|-------------| | Lignage Technique | Au niveau table, colonne, SQL | | Lignage Métier | Termes métier et KPIs | | Lignage Opérationnel | Jobs, plannings, dépendances | | Niveau Colonne | Transformations au niveau champ |
Pourquoi le Lignage est Important
- Analyse d'impact — ce qui casse lors des changements
- Analyse des causes — d'où vient l'erreur
- Conformité — respect RGPD, SOX
- Documentation — comprendre les données
- Migration — planifier les transitions
Outils
| Outil | Caractéristiques | |-------|------------------| | Apache Atlas | Open-source, Hadoop | | OpenLineage | Standard, intégrations | | DataHub | LinkedIn, basé graphe | | Atlan | Catalogue données moderne | | Collibra | Enterprise |
Collecte Automatique
- Parsing SQL — analyse de requêtes
- Intégrations API — depuis Airflow, dbt, Spark
- Analyse de logs — des systèmes de traitement
- Récolte de métadonnées — des catalogues
Visualisation
- Graphes de dépendances
- Analyse amont/aval
- Évaluation d'impact
- Timeline des transformations
Applications Pratiques
- Débogage des problèmes de données
- Reporting de conformité
- Planification de migration de données
- Intégration nouveaux employés
- Documentation des actifs données