क्या है डेटा वृद्धि
प्रशिक्षण डेटा का कृत्रिम विस्तार
डेटा वृद्धि
डेटा वृद्धि मौजूदा डेटा की संशोधित प्रतियां बनाकर प्रशिक्षण डेटा की मात्रा को कृत्रिम रूप से बढ़ाने की एक तकनीक है।
वृद्धि का उपयोग क्यों करें
- डेटासेट का आकार बढ़ाना — जब प्रशिक्षण के लिए पर्याप्त डेटा नहीं हो
- ओवरफिटिंग रोकना — मॉडल विविध विविधताओं से सीखता है
- मजबूती में सुधार — मॉडल नए डेटा पर बेहतर सामान्यीकरण करता है
- लागत कम करना — वास्तविक डेटा एकत्र करने से सस्ता
छवियों के लिए तरीके
| तरीका | विवरण | |--------|--------| | रोटेशन | मनमाने कोण से घुमाना | | फ्लिपिंग | क्षैतिज/ऊर्ध्वाधर मिररिंग | | स्केलिंग | ज़ूम इन/आउट | | क्रॉपिंग | छवि भाग का यादृच्छिक क्रॉप | | ब्राइटनेस/कंट्रास्ट | रंग विशेषता समायोजन | | शोर | गॉसियन शोर जोड़ना | | Cutout/Mixup | आधुनिक तकनीकें |
टेक्स्ट के लिए तरीके
- बैक-ट्रांसलेशन — दूसरी भाषा के माध्यम से आगे-पीछे अनुवाद
- समानार्थी — शब्दों को समानार्थी से बदलना
- सम्मिलन/हटाना — यादृच्छिक शब्द
- शफलिंग — शब्द क्रम बदलना
- जनरेशन — LLM का उपयोग करके नए टेक्स्ट बनाना
ऑडियो के लिए तरीके
- प्लेबैक गति संशोधन
- पिच शिफ्टिंग
- बैकग्राउंड शोर जोड़ना
- टाइम वार्पिंग
उपकरण
- imgaug — छवि वृद्धि लाइब्रेरी (Python)
- Albumentations — तेज़ छवि वृद्धि
- nlpaug — टेक्स्ट वृद्धि
- audiomentations — ऑडियो वृद्धि
- TensorFlow/PyTorch — बिल्ट-इन ट्रांसफॉर्म लेयर्स