O que é Compressão de Modelos
Redução do tamanho de modelos ML
Compressão de Modelos é um conjunto de técnicas para reduzir o tamanho e os requisitos computacionais de modelos ML sem perda significativa de qualidade.
Métodos de Compressão
- Quantização — reduzir precisão dos pesos (FP32 → INT8)
- Poda — remover conexões insignificantes
- Destilação de conhecimento — treinar modelo pequeno com grande
- Fatorização de baixo rank — decompor matrizes de pesos
Benefícios
- Redução de tamanho de 4-10x
- Aceleração de inferência de 2-5x
- Menor consumo de energia
- Implantação em dispositivos edge
- Economia em infraestrutura
Aplicações
- Aplicações móveis
- IoT e sistemas embarcados
- Apps ML no navegador
- Sistemas em tempo real
- Dispositivos autônomos