Was ist Modellkompression
Reduzierung der ML-Modellgröße
Modellkompression ist eine Reihe von Techniken zur Reduzierung der Größe und der Rechenanforderungen von ML-Modellen ohne signifikanten Qualitätsverlust.
Kompressionsverfahren
- Quantisierung — Reduzierung der Gewichtspräzision (FP32 → INT8)
- Pruning — Entfernen unbedeutender Verbindungen
- Wissensdestillation — Training eines kleinen Modells auf einem großen
- Niedrigrangfaktorisierung — Zerlegung von Gewichtsmatrizen
Vorteile
- Größenreduzierung um das 4-10-fache
- Inferenzbeschleunigung um das 2-5-fache
- Reduzierter Stromverbrauch
- Edge-Geräte-Deployment
- Infrastrukturkosteneinsparungen
Anwendungen
- Mobile Anwendungen
- IoT und eingebettete Systeme
- Browser-basierte ML-Apps
- Echtzeitsysteme
- Autonome Geräte