ما هو تعزيز البيانات
توسيع بيانات التدريب بشكل اصطناعي
تعزيز البيانات
تعزيز البيانات هي تقنية لزيادة حجم بيانات التدريب بشكل اصطناعي عن طريق إنشاء نسخ معدلة من البيانات الموجودة.
لماذا نستخدم التعزيز
- زيادة حجم مجموعة البيانات — عندما لا تكون هناك بيانات كافية للتدريب
- منع الإفراط في التعلم — يتعلم النموذج من تنويعات متعددة
- تحسين المتانة — يعمم النموذج بشكل أفضل على بيانات جديدة
- تقليل التكاليف — أرخص من جمع بيانات حقيقية
طرق الصور
| الطريقة | الوصف | |---------|-------| | التدوير | التدوير بزاوية عشوائية | | القلب | الانعكاس الأفقي/الرأسي | | القياس | التكبير/التصغير | | القص | قص عشوائي لجزء من الصورة | | السطوع/التباين | تعديل خصائص اللون | | الضوضاء | إضافة ضوضاء غاوسية | | Cutout/Mixup | تقنيات حديثة |
طرق النص
- الترجمة العكسية — الترجمة ذهاباً وإياباً عبر لغة أخرى
- المرادفات — استبدال الكلمات بمرادفاتها
- الإدراج/الحذف — كلمات عشوائية
- الخلط — تغيير ترتيب الكلمات
- التوليد — إنشاء نصوص جديدة باستخدام LLM
طرق الصوت
- تعديل سرعة التشغيل
- تحويل النغمة
- إضافة ضوضاء خلفية
- تشويه زمني
الأدوات
- imgaug — مكتبة تعزيز الصور (Python)
- Albumentations — تعزيز سريع للصور
- nlpaug — تعزيز النص
- audiomentations — تعزيز الصوت
- TensorFlow/PyTorch — طبقات تحويل مدمجة