क्या है क्वांटाइजेशन
गति के लिए गणना सटीकता में कमी
क्वांटाइजेशन एक न्यूरल नेटवर्क ऑप्टिमाइजेशन तकनीक है जहां मॉडल वेट और एक्टिवेशन को उच्च-सटीकता फॉर्मेट (FP32) से निम्न-सटीकता (INT8, INT4) में बदला जाता है, जिससे मॉडल का आकार कम होता है और इन्फरेंस तेज होता है।
क्वांटाइजेशन के प्रकार
- Post-Training Quantization (PTQ) — मॉडल ट्रेनिंग के बाद
- Quantization-Aware Training (QAT) — ट्रेनिंग के दौरान
- डायनामिक क्वांटाइजेशन — इन्फरेंस के दौरान
- स्टैटिक क्वांटाइजेशन — डेटा कैलिब्रेशन के साथ
प्रिसिजन फॉर्मेट
- FP32 — 32-बिट फ्लोटिंग पॉइंट (मूल)
- FP16 — 16-बिट (हाफ प्रिसिजन)
- INT8 — 8-बिट इंटीजर (4x कंप्रेशन)
- INT4 — 4-बिट इंटीजर (8x कंप्रेशन)
लाभ
- मॉडल आकार में 2-8x कमी
- इन्फरेंस स्पीडअप 2-4x
- कम बिजली खपत
- एज डिवाइस पर चलाने की क्षमता
टूल्स
- TensorRT (NVIDIA)
- ONNX Runtime
- PyTorch क्वांटाइजेशन
- TensorFlow Lite