Nedir Nicemleştirme
Hız için hesaplama hassasiyetini azaltma
Nicemleştirme (Quantization), model ağırlıklarının ve aktivasyonlarının yüksek hassasiyetli formatlardan (FP32) düşük hassasiyete (INT8, INT4) dönüştürüldüğü, model boyutunu küçülten ve çıkarımı hızlandıran bir sinir ağı optimizasyon tekniğidir.
Nicemleştirme Türleri
- Post-Training Quantization (PTQ) — model eğitiminden sonra
- Quantization-Aware Training (QAT) — eğitim sırasında
- Dinamik Nicemleştirme — çıkarım sırasında
- Statik Nicemleştirme — veri kalibrasyonu ile
Hassasiyet Formatları
- FP32 — 32-bit kayan nokta (orijinal)
- FP16 — 16-bit (yarı hassasiyet)
- INT8 — 8-bit tamsayı (4x sıkıştırma)
- INT4 — 4-bit tamsayı (8x sıkıştırma)
Faydalar
- Model boyutunda 2-8x azalma
- Çıkarımda 2-4x hızlanma
- Düşük güç tüketimi
- Edge cihazlarda çalışabilme
Araçlar
- TensorRT (NVIDIA)
- ONNX Runtime
- PyTorch quantization
- TensorFlow Lite