O que é Aumento de dados
Expansão artificial de dados de treinamento
Aumento de Dados
Aumento de dados é uma técnica para aumentar artificialmente o volume de dados de treinamento criando cópias modificadas de dados existentes.
Por que usar aumento
- Aumentar tamanho do dataset — quando há dados insuficientes para treinamento
- Prevenir overfitting — modelo aprende de variações diversas
- Melhorar robustez — modelo generaliza melhor em dados novos
- Reduzir custos — mais barato que coletar dados reais
Métodos para Imagens
| Método | Descrição | |--------|-----------| | Rotação | Rotação por ângulo arbitrário | | Espelhamento | Espelho horizontal/vertical | | Escala | Zoom in/out | | Recorte | Corte aleatório de porção da imagem | | Brilho/Contraste | Ajustes de características de cor | | Ruído | Adicionar ruído Gaussiano | | Cutout/Mixup | Técnicas modernas |
Métodos para Texto
- Back-translation — traduzir ida e volta através de outro idioma
- Sinônimos — substituir palavras por sinônimos
- Inserção/exclusão — palavras aleatórias
- Embaralhamento — mudar ordem das palavras
- Geração — criar novos textos usando LLM
Métodos para Áudio
- Modificação de velocidade de reprodução
- Mudança de tom
- Adicionar ruído de fundo
- Distorção temporal
Ferramentas
- imgaug — biblioteca de aumento de imagens (Python)
- Albumentations — aumento rápido de imagens
- nlpaug — aumento de texto
- audiomentations — aumento de áudio
- TensorFlow/PyTorch — camadas de transformação integradas