Qué es Ingeniería del caos
Prueba de resiliencia mediante fallos
Ingeniería del Caos
Chaos Engineering — la disciplina de introducir fallos intencionalmente en un sistema para verificar su resiliencia y capacidades de recuperación.
Principios de Chaos Engineering
| Principio | Descripción | |-----------|-------------| | Hipótesis | Formular comportamiento esperado | | Radio de explosión mínimo | Limitar alcance del experimento | | Producción primero | Probar en entorno real | | Automatización | Experimentos continuos |
Tipos de Experimentos
- Fallo de servicio — matar pod/contenedor
- Fallos de red — latencia, pérdida de paquetes
- Restricciones de recursos — estrés CPU/memoria
- Fallo de zona de disponibilidad — fallo AZ
Herramientas
- Chaos Monkey (Netflix) — clásico del caos
- Gremlin — plataforma enterprise
- Litmus — nativo de Kubernetes
- Chaos Mesh — proyecto CNCF
Proceso del Experimento
- Definir estado estable
- Formular hipótesis
- Inyectar fallo
- Observar resultados
- Mejorar sistema