คืออะไร การเพิ่มข้อมูล
การขยายข้อมูลฝึกอบรมเทียม
การเพิ่มข้อมูล
การเพิ่มข้อมูล เป็นเทคนิคในการเพิ่มปริมาณข้อมูลการฝึกอบรมเทียมโดยการสร้างสำเนาที่ดัดแปลงของข้อมูลที่มีอยู่
ทำไมต้องใช้การเพิ่มข้อมูล
- เพิ่มขนาดชุดข้อมูล — เมื่อมีข้อมูลไม่เพียงพอสำหรับการฝึกอบรม
- ป้องกัน Overfitting — โมเดลเรียนรู้จากรูปแบบที่หลากหลาย
- ปรับปรุงความทนทาน — โมเดลทำ Generalize ได้ดีขึ้นกับข้อมูลใหม่
- ลดต้นทุน — ถูกกว่าการเก็บข้อมูลจริง
วิธีการสำหรับรูปภาพ
| วิธี | คำอธิบาย | |------|----------| | การหมุน | หมุนตามมุมที่กำหนด | | การพลิก | กระจกแนวนอน/แนวตั้ง | | การปรับขนาด | ซูมเข้า/ออก | | การครอป | ตัดส่วนภาพแบบสุ่ม | | ความสว่าง/คอนทราสต์ | ปรับคุณลักษณะสี | | สัญญาณรบกวน | เพิ่ม Gaussian noise | | Cutout/Mixup | เทคนิคสมัยใหม่ |
วิธีการสำหรับข้อความ
- Back-translation — แปลไป-กลับผ่านภาษาอื่น
- คำพ้องความหมาย — แทนที่คำด้วยคำพ้องความหมาย
- การแทรก/ลบ — คำแบบสุ่ม
- การสับเปลี่ยน — เปลี่ยนลำดับคำ
- การสร้าง — สร้างข้อความใหม่โดยใช้ LLM
วิธีการสำหรับเสียง
- แก้ไขความเร็วในการเล่น
- Pitch shifting
- เพิ่มเสียงรบกวนพื้นหลัง
- Time warping
เครื่องมือ
- imgaug — ไลบรารีเพิ่มรูปภาพ (Python)
- Albumentations — เพิ่มรูปภาพอย่างรวดเร็ว
- nlpaug — เพิ่มข้อความ
- audiomentations — เพิ่มเสียง
- TensorFlow/PyTorch — transform layers ในตัว