Mis on Andmete teisendamine
Andmete teisendamine ühest vormingust teise
Andmete teisendamine on protsess, mille käigus teisendatakse andmed nende lähte vormingust või struktuurist sihtformaadiks analüüsiks, integreerimiseks või säilitamiseks.
Teisendamise tüübid
- Struktuurne — andmeskeemi muutmine (normaliseerimine, denormaliseerimine)
- Vorming — teisendamine vormingute vahel (JSON, XML, CSV)
- Semantiline — ühtsete viitekoodide kaardistamine
- Agregeerimine — andmete rühmitamine ja kokkuvõtete tegemine
- Puhastamine — duplikaatide eemaldamine, vigade parandamine
ETL/ELT protsessid
Teisendamine on võtmeetapp ETL- (Extract, Transform, Load) ja ELT-torustikes (Extract, Load, Transform) andmete laadimiseks andmeladudesse.
Tööriistad
- Apache Spark, Apache Beam
- dbt (data build tool)
- Talend, Informatica
- Python (pandas, PySpark)
Kvaliteetne teisendamine tagab andmete järjepidevuse ja valmisoleku analüüsiks.