Что такое Синтетические данные
Искусственно созданные данные для обучения
Синтетические данные — это искусственно сгенерированные данные, которые имитируют реальные данные, сохраняя их статистические свойства и структуру.
Преимущества
- Конфиденциальность — нет рисков утечки персональных данных
- Масштабируемость — можно создать любой объём данных
- Баланс классов — легко устранить дисбаланс в датасете
- Редкие сценарии — моделирование edge-cases
Методы генерации
- Статистические модели — на основе распределений
- GAN — генеративно-состязательные сети
- VAE — вариационные автоэнкодеры
- Симуляции — физическое моделирование
Применение
- Обучение ML-моделей при нехватке данных
- Тестирование систем обработки данных
- Разработка и отладка приложений
- Аугментация существующих датасетов