Chuyển đổi dữ liệu là gì
Chuyển đổi dữ liệu từ định dạng này sang định dạng khác
Chuyển đổi dữ liệu là quá trình chuyển đổi dữ liệu từ định dạng hoặc cấu trúc nguồn sang định dạng đích để phân tích, tích hợp hoặc lưu trữ.
Các loại chuyển đổi
- Cấu trúc — thay đổi schema dữ liệu (chuẩn hóa, phi chuẩn hóa)
- Định dạng — chuyển đổi giữa các định dạng (JSON, XML, CSV)
- Ngữ nghĩa — ánh xạ đến mã tham chiếu thống nhất
- Tổng hợp — nhóm và tóm tắt dữ liệu
- Làm sạch — loại bỏ trùng lặp, sửa lỗi
Quy trình ETL/ELT
Chuyển đổi là bước quan trọng trong các pipeline ETL (Extract, Transform, Load) và ELT (Extract, Load, Transform) để tải dữ liệu vào kho dữ liệu.
Công cụ
- Apache Spark, Apache Beam
- dbt (data build tool)
- Talend, Informatica
- Python (pandas, PySpark)
Chuyển đổi chất lượng đảm bảo tính nhất quán của dữ liệu và sẵn sàng cho phân tích.