Mikä on Kvantisointi
Laskentatarkkuuden vahentaminen nopeuden vuoksi
Kvantisointi on neuroverkon optimointitekniikka, jossa mallin painot ja aktivoinnit muunnetaan korkeasta tarkkuudesta (FP32) matalaan tarkkuuteen (INT8, INT4), pienentaen mallin kokoa ja nopeuttaen paattelya.
Kvantisoinnin tyypit
- Post-Training Quantization (PTQ) — mallin koulutuksen jalkeen
- Quantization-Aware Training (QAT) — koulutuksen aikana
- Dynaaminen kvantisointi — paattelyn aikana
- Staattinen kvantisointi — datan kalibroinnilla
Tarkkuusformaatit
- FP32 — 32-bittinen liukuluku (alkuperainen)
- FP16 — 16-bittinen (puolitarkkuus)
- INT8 — 8-bittinen kokonaisluku (4x pakkaus)
- INT4 — 4-bittinen kokonaisluku (8x pakkaus)
Edut
- Mallin koon pienentaminen 2-8x
- Paattelyn nopeutuminen 2-4x
- Vahentynyt virrankulutus
- Mahdollisuus ajaa reunalaitteilla
Tyokalut
- TensorRT (NVIDIA)
- ONNX Runtime
- PyTorch kvantisointi
- TensorFlow Lite