Vad är Kvantisering
Minska berakningsprecision for hastighet
Kvantisering ar en optimeringsteknik for neurala natverk dar modellvikter och aktiveringar konverteras fran hogprecisionsformat (FP32) till lagprecision (INT8, INT4), vilket minskar modellstorleken och snabbar upp inferens.
Typer av Kvantisering
- Post-Training Quantization (PTQ) — efter modelltraning
- Quantization-Aware Training (QAT) — under traning
- Dynamisk Kvantisering — under inferens
- Statisk Kvantisering — med datakalibrering
Precisionsformat
- FP32 — 32-bit flyttal (original)
- FP16 — 16-bit (halv precision)
- INT8 — 8-bit heltal (4x komprimering)
- INT4 — 4-bit heltal (8x komprimering)
Fordelar
- Minskning av modellstorlek med 2-8x
- Inferenshastighet okad med 2-4x
- Minskad stromforbrukning
- Mojlighet att kora pa edge-enheter
Verktyg
- TensorRT (NVIDIA)
- ONNX Runtime
- PyTorch kvantisering
- TensorFlow Lite