




**Ingeniería de Confiabilidad del Sitio (SRE)** en Equifax es una disciplina que combina ingeniería de software e ingeniería de sistemas para construir y operar sistemas distribuidos a gran escala y tolerantes a fallas. SRE asegura que los servicios internos y externos cumplan o superen las expectativas de confiabilidad y rendimiento, al tiempo que se adhiere a los principios de ingeniería de Equifax. SRE también es un enfoque de ingeniería para construir y gestionar sistemas en producción: creamos soluciones para problemas operativos. Nuestros ingenieros SRE son responsables del funcionamiento general del sistema y utilizamos diversas herramientas y métodos para resolver un amplio conjunto de problemas. Prácticas como limitar el tiempo dedicado al trabajo operativo, realizar análisis posteriores sin culpa, identificación proactiva y prevención de posibles interrupciones. Nuestra cultura SRE de diversidad, curiosidad intelectual, resolución de problemas y apertura es clave para su éxito. Equifax reúne a personas con una amplia variedad de antecedentes, experiencias y perspectivas. Las animamos a colaborar, pensar en grande y asumir riesgos en un entorno sin culpas. Fomentamos la autodirección para trabajar en proyectos significativos, mientras también nos esforzamos por crear un entorno que brinde el apoyo y la tutoría necesarios para aprender, crecer y sentir orgullo por nuestro trabajo. **Lo que harás** * Gestionar el tiempo de actividad del sistema en arquitecturas nativas de la nube (AWS, GCP) e híbridas. * Crear patrones de infraestructura como código (IAC) que cumplan con estándares de seguridad e ingeniería utilizando una o más tecnologías (Terraform, scripting con CLI en la nube, y programación con SDK en la nube). * Crear canalizaciones CI/CD para compilación, prueba e implementación de patrones de aplicaciones y arquitecturas en la nube, utilizando plataformas (Jenkins) y cadenas de herramientas nativas de la nube. * Crear herramientas automatizadas para desplegar solicitudes de servicio y realizar cambios en producción. Elaborar manuales operativos completos y detallados para gestionar la detección, corrección y restauración de servicios. * Resolver problemas y clasificar complejos mapas de servicios en arquitecturas distribuidas. Estar de guardia para incidentes críticos de aplicaciones y mejorar los manuales operativos para reducir el MTTR. * Liderar análisis posteriores sin culpa sobre disponibilidad y ser responsable de las acciones correctivas para evitar recurrencias. **Experiencia requerida** * Título universitario en Ciencias de la Computación o campo técnico relacionado con programación (por ejemplo, física o matemáticas), o experiencia laboral equivalente. * 5\-7 años de experiencia en ingeniería de software, administración de sistemas, administración de bases de datos y redes. * 2\+ años de experiencia desarrollando y/o administrando software en la nube pública. * Experiencia en monitoreo de infraestructura y tiempo de actividad de aplicaciones para garantizar objetivos funcionales y de rendimiento. * Experiencia en lenguajes como **Python, Bash, Java (Go, JavaScript y/o node.js\- negociable)** * Conocimientos demostrables transversales en sistemas, almacenamiento, redes, seguridad y bases de datos. * Habilidades en administración de sistemas, incluyendo automatización y orquestación de Linux/Windows usando **Terraform, Chef, Ansible y/o contenedores (Docker, Kubernetes, etc.)** * Competencia en herramientas y prácticas de integración continua y entrega continua. * **Experiencia en GCP\- AWS\- Azure**


