Qu'est-ce que Augmentation de données
Expansion artificielle des données d'entraînement
Augmentation de Données
L'augmentation de données est une technique pour augmenter artificiellement le volume de données d'entraînement en créant des copies modifiées de données existantes.
Pourquoi utiliser l'augmentation
- Augmenter la taille du dataset — quand les données sont insuffisantes pour l'entraînement
- Prévenir le surapprentissage — le modèle apprend des variations diverses
- Améliorer la robustesse — le modèle généralise mieux sur de nouvelles données
- Réduire les coûts — moins cher que collecter des données réelles
Méthodes pour Images
| Méthode | Description | |---------|-------------| | Rotation | Rotation par angle arbitraire | | Retournement | Miroir horizontal/vertical | | Mise à l'échelle | Zoom avant/arrière | | Recadrage | Découpe aléatoire d'une partie d'image | | Luminosité/Contraste | Ajustements des caractéristiques de couleur | | Bruit | Ajout de bruit Gaussien | | Cutout/Mixup | Techniques modernes |
Méthodes pour Texte
- Back-translation — traduire aller-retour via une autre langue
- Synonymes — remplacer des mots par des synonymes
- Insertion/suppression — mots aléatoires
- Mélange — changer l'ordre des mots
- Génération — créer de nouveaux textes avec LLM
Méthodes pour Audio
- Modification de vitesse de lecture
- Décalage de hauteur tonale
- Ajout de bruit de fond
- Déformation temporelle
Outils
- imgaug — bibliothèque d'augmentation d'images (Python)
- Albumentations — augmentation d'images rapide
- nlpaug — augmentation de texte
- audiomentations — augmentation audio
- TensorFlow/PyTorch — couches de transformation intégrées