Site Reliability Engineer (SRE)

Calendar image

2 de abril, 2025

Location icon

Lima , Lima

Troomes

Minería, Petróleo y Gas

Belcorp

Belcorp Logo Aplicar
Descripción

Descripción de la oferta de empleo

Funciones:

Contribuir a la definición y el mantenimiento de los indicadores de nivel de servicio (SLI), los objetivos de nivel de servicio (SLO) y los presupuestos de errores, garantizando que la fiabilidad del sistema pueda medirse y mejorarse continuamente.
Implementar estrategias que mejoren la observabilidad, proporcionando información procesable a través de la recopilación y el análisis estructurados de registros, métricas y trazas.
Identificar y eliminar tareas operativas manuales y repetitivas, impulsando la automatización y la eficiencia operativa.
Apoyar a los equipos de ingeniería integrando las mejores prácticas de fiabilidad en el ciclo de vida de desarrollo, centrándose en la resiliencia y la tolerancia a fallos.
Participar en la gestión de incidentes y en el análisis de la causa raíz, promoviendo una cultura de aprendizaje a través de análisis detallados.
Colaborar en la planificación de la escalabilidad y la optimización del rendimiento, garantizando que los sistemas estén alineados con el crecimiento y la continuidad del negocio.
Promover procesos seguros de gestión del cambio, minimizando el riesgo y garantizando la disponibilidad durante los despliegues y las actualizaciones de la infraestructura.


Requisitos:

Más de 3 años de experiencia en funciones de infraestructura, DevOps o SRE, con un historial probado de funcionamiento de entornos de producción.
Conocimiento profundo de la arquitectura de la nube de AWS, incluidos servicios como EC2, S3, RDS, VPC, IAM, CloudWatch y configuraciones de redes.
Experiencia avanzada con Infrastructure as Code (IaC) mediante Terraform, incluidos módulos reutilizables, espacios de trabajo y gestión de estados.
Experiencia con herramientas de gestión de la configuración como Ansible, o similares (por ejemplo, Chef, Puppet), para el aprovisionamiento y la gestión de los estados del sistema en todos los entornos.