Что такое Переобучение
Когда модель слишком хорошо запоминает обучающие данные
Переобучение — это проблема машинного обучения, когда модель слишком хорошо запоминает обучающие данные и плохо обобщает на новые.
Признаки переобучения
- Высокая точность на обучающих данных
- Низкая точность на тестовых данных
- Большой разрыв между train и test метриками
- Модель запоминает шум в данных
Причины
- Слишком сложная модель
- Недостаточно данных для обучения
- Слишком долгое обучение
- Отсутствие регуляризации
Методы борьбы
- Регуляризация (L1, L2)
- Dropout в нейронных сетях
- Ранняя остановка обучения
- Кросс-валидация
- Увеличение объёма данных (Data Augmentation)
- Упрощение модели
Баланс bias-variance
Переобучение связано с низким смещением (bias) и высокой дисперсией (variance). Важно найти баланс.