Nima SRE
Sayt ishonchliligi muhandisligi — tizim ishonchliligi
SRE (Site Reliability Engineering) — tizimlarning ishonchliligi, kengaytirilishi va samaradorligini ta'minlash uchun ishlab chiqish va operatsiyalarni birlashtiruvchi muhandislik fani.
Asosiy tamoyillar
- Xato byudjeti — qabul qilinadigan nosozlik darajasi
- SLI/SLO/SLA — xizmat darajasi ko'rsatkichlari va kelishuvlari
- Toil kamaytirish — kundalik vazifalarni avtomatlashtirish
- Postmortem madaniyati — ayblamasdan hodisalarni tahlil qilish
Asosiy amaliyotlar
- Monitoring va ogohlantirish
- Hodisalarni boshqarish (navbatchilik)
- Sig'imni rejalashtirish
- Chaos engineering
- Release avtomatlashtirish
SRE ko'rsatkichlari
- Mavjudlik — xizmat ishlash vaqti
- Kechikish — javob vaqti
- Xato darajasi — xatolar chastotasi
- MTTR — o'rtacha tiklash vaqti
Vositalar
- Prometheus + Grafana
- PagerDuty / Opsgenie
- Kubernetes
- Terraform