데이터 변환 이란
데이터를 한 형식에서 다른 형식으로 변환
데이터 변환은 분석, 통합 또는 저장을 위해 데이터를 소스 형식이나 구조에서 대상 형식으로 변환하는 프로세스입니다.
변환 유형
- 구조적 — 데이터 스키마 변경 (정규화, 비정규화)
- 형식 — 형식 간 변환 (JSON, XML, CSV)
- 의미적 — 통합 참조 코드에 매핑
- 집계 — 데이터 그룹화 및 요약
- 정제 — 중복 제거, 오류 수정
ETL/ELT 프로세스
변환은 데이터 웨어하우스에 데이터를 로드하기 위한 ETL(Extract, Transform, Load) 및 ELT(Extract, Load, Transform) 파이프라인의 핵심 단계입니다.
도구
- Apache Spark, Apache Beam
- dbt (data build tool)
- Talend, Informatica
- Python (pandas, PySpark)
품질 높은 변환은 데이터 일관성과 분석 준비를 보장합니다.