Что такое Трансформация данных
Преобразование данных из одного формата в другой
Трансформация данных — это процесс преобразования данных из исходного формата или структуры в целевой формат для анализа, интеграции или хранения.
Типы трансформаций
- Структурная — изменение схемы данных (нормализация, денормализация)
- Форматная — конвертация между форматами (JSON, XML, CSV)
- Семантическая — приведение к единым справочникам и кодам
- Агрегационная — группировка и суммирование данных
- Очистка — удаление дубликатов, исправление ошибок
ETL/ELT процессы
Трансформация — ключевой этап в ETL (Extract, Transform, Load) и ELT (Extract, Load, Transform) пайплайнах для загрузки данных в хранилища.
Инструменты
- Apache Spark, Apache Beam
- dbt (data build tool)
- Talend, Informatica
- Python (pandas, PySpark)
Качественная трансформация обеспечивает консистентность данных и готовность к аналитике.