Qué es Compresión de Modelos
Reducción del tamaño de modelos ML
Compresión de Modelos es un conjunto de técnicas para reducir el tamaño y los requisitos computacionales de modelos ML sin pérdida significativa de calidad.
Métodos de Compresión
- Cuantización — reducir la precisión de pesos (FP32 → INT8)
- Poda — eliminar conexiones insignificantes
- Destilación de conocimiento — entrenar modelo pequeño con grande
- Factorización de bajo rango — descomponer matrices de pesos
Beneficios
- Reducción de tamaño de 4-10x
- Aceleración de inferencia de 2-5x
- Menor consumo de energía
- Despliegue en dispositivos edge
- Ahorro en costos de infraestructura
Aplicaciones
- Aplicaciones móviles
- IoT y sistemas embebidos
- Apps ML en navegador
- Sistemas en tiempo real
- Dispositivos autónomos