Qu'est-ce que Transformation des données
Conversion des données d'un format à un autre
La transformation des données est le processus de conversion des données de leur format ou structure source vers un format cible pour l'analyse, l'intégration ou le stockage.
Types de transformations
- Structurelle — modification du schéma de données (normalisation, dénormalisation)
- Format — conversion entre formats (JSON, XML, CSV)
- Sémantique — correspondance avec des codes de référence unifiés
- Agrégation — regroupement et résumé des données
- Nettoyage — suppression des doublons, correction des erreurs
Processus ETL/ELT
La transformation est une étape clé dans les pipelines ETL (Extract, Transform, Load) et ELT (Extract, Load, Transform) pour charger les données dans les entrepôts.
Outils
- Apache Spark, Apache Beam
- dbt (data build tool)
- Talend, Informatica
- Python (pandas, PySpark)
Une transformation de qualité garantit la cohérence des données et leur préparation à l'analyse.