Hva er Kvantisering
Redusere beregningspresisjon for hastighet
Kvantisering er en optimeringsteknikk for nevrale nettverk der modellvekter og aktiveringer konverteres fra hoypresisionsformater (FP32) til lavpresisjon (INT8, INT4), noe som reduserer modellstorrelsen og akselererer inferens.
Typer Kvantisering
- Post-Training Quantization (PTQ) — etter modelltrening
- Quantization-Aware Training (QAT) — under trening
- Dynamisk Kvantisering — under inferens
- Statisk Kvantisering — med datakalibrering
Presisjonsformater
- FP32 — 32-bit flyttall (original)
- FP16 — 16-bit (halv presisjon)
- INT8 — 8-bit heltall (4x komprimering)
- INT4 — 4-bit heltall (8x komprimering)
Fordeler
- Reduksjon av modellstorrelse med 2-8x
- Inferenshastighet okt med 2-4x
- Redusert stromforbruk
- Mulighet til a kjore pa edge-enheter
Verktoy
- TensorRT (NVIDIA)
- ONNX Runtime
- PyTorch kvantisering
- TensorFlow Lite