Qu'est-ce que Ingénierie du chaos
Test de résilience par les pannes
Ingénierie du Chaos
Chaos Engineering — la discipline d'introduction intentionnelle de pannes dans un système pour vérifier sa résilience et ses capacités de récupération.
Principes du Chaos Engineering
| Principe | Description | |----------|-------------| | Hypothèse | Formuler le comportement attendu | | Rayon d'explosion minimal | Limiter la portée de l'expérience | | Production d'abord | Tester en environnement réel | | Automatisation | Expériences continues |
Types d'Expériences
- Panne de service — tuer pod/conteneur
- Pannes réseau — latence, perte de paquets
- Contraintes de ressources — stress CPU/mémoire
- Panne de zone de disponibilité — panne AZ
Outils
- Chaos Monkey (Netflix) — classique du chaos
- Gremlin — plateforme enterprise
- Litmus — natif Kubernetes
- Chaos Mesh — projet CNCF
Processus d'Expérience
- Définir l'état stable
- Formuler l'hypothèse
- Injecter la panne
- Observer les résultats
- Améliorer le système