Vad är Datatransformation
Konvertering av data från ett format till ett annat
Datatransformation är processen att konvertera data från dess källformat eller struktur till ett målformat för analys, integration eller lagring.
Typer av transformationer
- Strukturell — ändring av dataschema (normalisering, denormalisering)
- Format — konvertering mellan format (JSON, XML, CSV)
- Semantisk — mappning till enhetliga referenskoder
- Aggregering — gruppering och sammanfattning av data
- Rensning — borttagning av dubbletter, korrigering av fel
ETL/ELT-processer
Transformation är ett nyckelsteg i ETL- (Extract, Transform, Load) och ELT-pipelines (Extract, Load, Transform) för att ladda data till datalager.
Verktyg
- Apache Spark, Apache Beam
- dbt (data build tool)
- Talend, Informatica
- Python (pandas, PySpark)
Kvalitetstransformation säkerställer datakonsistens och analysförberedelse.