SRE дегеніміз не
Сайт сенімділігі инженериясы — жүйе сенімділігі
SRE (Site Reliability Engineering) — жүйелердің сенімділігін, масштабталуын және өнімділігін қамтамасыз ету үшін әзірлеу мен операцияларды біріктіретін инженерлік пән.
Негізгі қағидалар
- Қате бюджеті — ақаулықтардың рұқсат етілген деңгейі
- SLI/SLO/SLA — қызмет деңгейінің көрсеткіштері мен келісімдері
- Toil азайту — күнделікті тапсырмаларды автоматтандыру
- Postmortem мәдениеті — кінә артпай инциденттерді талдау
Негізгі практикалар
- Мониторинг және ескерту
- Инциденттерді басқару (кезекшілік)
- Сыйымдылықты жоспарлау
- Chaos engineering
- Release автоматтандыру
SRE көрсеткіштері
- Қолжетімділік — қызметтің жұмыс уақыты
- Кідіріс — жауап уақыты
- Қате деңгейі — қателер жиілігі
- MTTR — қалпына келтірудің орташа уақыты
Құралдар
- Prometheus + Grafana
- PagerDuty / Opsgenie
- Kubernetes
- Terraform