Qu'est-ce que Compression de Modèles
Réduction de la taille des modèles ML
Compression de Modèles est un ensemble de techniques pour réduire la taille et les exigences de calcul des modèles ML sans perte significative de qualité.
Méthodes de Compression
- Quantification — réduction de la précision des poids (FP32 → INT8)
- Élagage — suppression des connexions insignifiantes
- Distillation de connaissances — entraînement d'un petit modèle sur un grand
- Factorisation de rang faible — décomposition des matrices de poids
Avantages
- Réduction de taille de 4-10x
- Accélération de l'inférence de 2-5x
- Consommation d'énergie réduite
- Déploiement sur appareils edge
- Économies sur l'infrastructure
Applications
- Applications mobiles
- IoT et systèmes embarqués
- Apps ML dans le navigateur
- Systèmes temps réel
- Appareils autonomes