什么是 数据增强
人工扩展训练数据
数据增强
数据增强是一种通过创建现有数据的修改副本来人工增加训练数据量的技术。
为什么使用增强
- 增加数据集大小 — 当训练数据不足时
- 防止过拟合 — 模型从多样化变体中学习
- 提高鲁棒性 — 模型在新数据上泛化更好
- 降低成本 — 比收集真实数据更便宜
图像方法
| 方法 | 描述 | |------|------| | 旋转 | 任意角度旋转 | | 翻转 | 水平/垂直镜像 | | 缩放 | 放大/缩小 | | 裁剪 | 随机裁剪图像部分 | | 亮度/对比度 | 颜色特性调整 | | 噪声 | 添加高斯噪声 | | Cutout/Mixup | 现代技术 |
文本方法
- 回译 — 通过另一种语言来回翻译
- 同义词 — 用同义词替换单词
- 插入/删除 — 随机单词
- 打乱 — 改变词序
- 生成 — 使用LLM创建新文本
音频方法
- 播放速度修改
- 音高移位
- 添加背景噪声
- 时间扭曲
工具
- imgaug — 图像增强库(Python)
- Albumentations — 快速图像增强
- nlpaug — 文本增强
- audiomentations — 音频增强
- TensorFlow/PyTorch — 内置变换层