Qu'est-ce que Surapprentissage
Quand un modèle mémorise trop bien les données d'entraînement
Surapprentissage est un problème d'apprentissage automatique lorsqu'un modèle mémorise trop bien les données d'entraînement et échoue à généraliser sur de nouvelles données.
Signes de Surapprentissage
- Haute précision sur les données d'entraînement
- Faible précision sur les données de test
- Grand écart entre les métriques train et test
- Le modèle mémorise le bruit dans les données
Causes
- Modèle trop complexe
- Données d'entraînement insuffisantes
- Entraînement trop long
- Manque de régularisation
Méthodes de Prévention
- Régularisation (L1, L2)
- Dropout dans les réseaux de neurones
- Arrêt précoce
- Validation croisée
- Augmentation de données
- Simplification du modèle
Compromis Biais-Variance
Le surapprentissage est associé à un faible biais et une haute variance. Trouver le bon équilibre est crucial.