Was ist Quantisierung
Reduzierung der Berechnungsprazision fur Geschwindigkeit
Quantisierung ist eine Optimierungstechnik fur neuronale Netze, bei der Modellgewichte und Aktivierungen von hochprazisen Formaten (FP32) in niedrigprazise (INT8, INT4) konvertiert werden, um die Modellgrosse zu reduzieren und die Inferenz zu beschleunigen.
Arten der Quantisierung
- Post-Training Quantization (PTQ) — nach dem Modelltraining
- Quantization-Aware Training (QAT) — wahrend des Trainings
- Dynamische Quantisierung — wahrend der Inferenz
- Statische Quantisierung — mit Datenkalibrierung
Prazisionsformate
- FP32 — 32-Bit Gleitkomma (Original)
- FP16 — 16-Bit (halbe Prazision)
- INT8 — 8-Bit Integer (4x Kompression)
- INT4 — 4-Bit Integer (8x Kompression)
Vorteile
- Modellgrossenreduzierung um das 2-8-fache
- Inferenzbeschleunigung um das 2-4-fache
- Reduzierter Stromverbrauch
- Moglichkeit zur Ausfuhrung auf Edge-Geraten
Werkzeuge
- TensorRT (NVIDIA)
- ONNX Runtime
- PyTorch Quantisierung
- TensorFlow Lite