Qué es SRE
Ingeniería de Confiabilidad del Sitio — fiabilidad del sistema
SRE (Site Reliability Engineering) es una disciplina de ingeniería que combina desarrollo y operaciones para garantizar la confiabilidad, escalabilidad y rendimiento de los sistemas.
Principios fundamentales
- Presupuesto de errores — nivel aceptable de fallos
- SLI/SLO/SLA — métricas y acuerdos de nivel de servicio
- Reducción de toil — automatización de tareas rutinarias
- Cultura de postmortem — análisis de incidentes sin culpables
Prácticas clave
- Monitoreo y alertas
- Gestión de incidentes (guardia)
- Planificación de capacidad
- Ingeniería del caos
- Automatización de releases
Métricas SRE
- Disponibilidad — tiempo de actividad del servicio
- Latencia — tiempo de respuesta
- Tasa de errores — frecuencia de errores
- MTTR — tiempo medio de recuperación
Herramientas
- Prometheus + Grafana
- PagerDuty / Opsgenie
- Kubernetes
- Terraform