คืออะไร การบีบอัดโมเดล
ลดขนาดโมเดล ML
การบีบอัดโมเดล คือชุดเทคนิคสำหรับลดขนาดและความต้องการในการคำนวณของโมเดล ML โดยไม่สูญเสียคุณภาพอย่างมีนัยสำคัญ
วิธีการบีบอัด
- Quantization — ลดความแม่นยำของน้ำหนัก (FP32 → INT8)
- Pruning — ลบการเชื่อมต่อที่ไม่สำคัญ
- Knowledge Distillation — ฝึกโมเดลเล็กด้วยโมเดลใหญ่
- Low-rank Factorization — แยกเมทริกซ์น้ำหนัก
ประโยชน์
- ลดขนาด 4-10 เท่า
- เพิ่มความเร็ว Inference 2-5 เท่า
- ลดการใช้พลังงาน
- ใช้งานบนอุปกรณ์ Edge
- ประหยัดค่าโครงสร้างพื้นฐาน
การประยุกต์ใช้
- แอปพลิเคชันมือถือ
- IoT และระบบฝังตัว
- แอป ML บนเบราว์เซอร์
- ระบบ Real-time
- อุปกรณ์อัตโนมัติ