ETL là gì
Trích xuất, Chuyển đổi, Tải dữ liệu
ETL (Extract, Transform, Load) là quá trình trích xuất dữ liệu từ các nguồn khác nhau, chuyển đổi và tải vào kho lưu trữ đích để phân tích và báo cáo.
Các giai đoạn ETL
- Extract (Trích xuất) — thu thập dữ liệu từ cơ sở dữ liệu, APIs, tệp
- Transform (Chuyển đổi) — làm sạch, xác thực, tổng hợp
- Load (Tải) — chuyển đến data warehouse hoặc data lake
Công cụ ETL
- Apache Airflow — điều phối pipeline
- Talend — nền tảng ETL doanh nghiệp
- dbt — chuyển đổi trong warehouse
- Fivetran — tích hợp tự động
Ứng dụng kinh doanh
- Xây dựng data warehouse
- Tích hợp CRM, ERP, marketing
- Chuẩn bị dữ liệu cho báo cáo BI
- Di chuyển hệ thống