Qué es Aumento de datos
Expansión artificial de datos de entrenamiento
Aumento de Datos
El aumento de datos es una técnica para aumentar artificialmente el volumen de datos de entrenamiento creando copias modificadas de datos existentes.
Por qué usar aumento
- Aumentar tamaño del dataset — cuando hay datos insuficientes para entrenamiento
- Prevenir sobreajuste — el modelo aprende de variaciones diversas
- Mejorar robustez — el modelo generaliza mejor en datos nuevos
- Reducir costos — más barato que recolectar datos reales
Métodos para Imágenes
| Método | Descripción | |--------|-------------| | Rotación | Rotación por ángulo arbitrario | | Volteo | Espejo horizontal/vertical | | Escalado | Acercar/alejar | | Recorte | Recorte aleatorio de porción de imagen | | Brillo/Contraste | Ajustes de características de color | | Ruido | Agregar ruido Gaussiano | | Cutout/Mixup | Técnicas modernas |
Métodos para Texto
- Back-translation — traducir ida y vuelta a través de otro idioma
- Sinónimos — reemplazar palabras con sinónimos
- Inserción/eliminación — palabras aleatorias
- Mezcla — cambiar orden de palabras
- Generación — crear nuevos textos usando LLM
Métodos para Audio
- Modificación de velocidad de reproducción
- Cambio de tono
- Agregar ruido de fondo
- Distorsión temporal
Herramientas
- imgaug — biblioteca de aumento de imágenes (Python)
- Albumentations — aumento rápido de imágenes
- nlpaug — aumento de texto
- audiomentations — aumento de audio
- TensorFlow/PyTorch — capas de transformación integradas