Dữ liệu Tổng hợp là gì
Dữ liệu huấn luyện được tạo nhân tạo
Dữ liệu Tổng hợp là dữ liệu được tạo nhân tạo mô phỏng dữ liệu thực trong khi bảo toàn các thuộc tính thống kê và cấu trúc của nó.
Ưu điểm
- Quyền riêng tư — không có rủi ro rò rỉ dữ liệu cá nhân
- Khả năng mở rộng — có thể tạo bất kỳ khối lượng dữ liệu nào
- Cân bằng lớp — dễ dàng loại bỏ sự mất cân bằng
- Tình huống hiếm — mô hình hóa các trường hợp biên
Phương pháp tạo
- Mô hình thống kê — dựa trên phân phối
- GAN — mạng đối nghịch tạo sinh
- VAE — bộ mã hóa tự động biến phân
- Mô phỏng — mô hình hóa vật lý
Ứng dụng
- Huấn luyện mô hình ML khi dữ liệu hạn chế
- Kiểm thử hệ thống xử lý dữ liệu
- Phát triển và gỡ lỗi ứng dụng
- Tăng cường bộ dữ liệu hiện có