El rol se centra en garantizar la estabilidad, monitorización y rendimiento de nuestra plataforma en entornos híbridos (Azure, AWS, On-Premise). No es solo un rol de despliegue, sino de garantía de servicio y "firefighting" eficiente, asegurando que las caídas de red o infraestructura se resuelvan en el menor tiempo posible (MTTR bajo).
Responsabilidades Clave
-
Gestión de Incidentes y Resolución Rápida: Actuación inmediata ante incidencias de red, rendimiento o disponibilidad de la plataforma. Diagnóstico y reparación ágil de fallos críticos.
-
Arquitectura y Gestión de Plataformas: Administración y optimización de clústeres Kubernetes (AKS, Rancher) y entornos híbridos (Azure, AWS, On-Premise).
-
Automatización e Infraestructura como Código: Implementación de pipelines CI/CD (Jenkins, ArgoCD) y gestión de infraestructura mediante Terraform y Ansible.
-
Monitorización y Observabilidad: Diseño y mantenimiento de la stack de monitorización (ELK, Prometheus, Grafana) para detectar anomalías antes de que impacten al usuario final.
-
Gestión de Configuración y Seguridad: Administración de repositorios (Nexus), colas de mensajes (RabbitMQ, ActiveMQ) y herramientas de seguridad (Wiz).
-
Documentación y Mejora Continua: Uso de Jira y Confluence para el seguimiento de incidencias y documentación de runbooks de resolución.
Requisitos Imprescindibles
-
Experiencia sólida en Kubernetes (AKS, Rancher) y gestión de contenedores.
-
Dominio de herramientas de Orquestación y Despliegue: Helm, ArgoCD, Jenkins.
-
Experiencia real en entornos híbridos: Azure, AWS y Gestión On-Premise.
-
Fuertes conocimientos de Redes y resolución de problemas de conectividad y rendimiento.
-
Experiencia con herramientas de Infraestructura como Código: Terraform, Ansible.
-
Dominio de stacks de monitorización: ELK, Prometheus, Grafana.
-
Gestión de bases de datos relacionales: PostgreSQL, Oracle.
-
Manejo de colas y mensajería: RabbitMQ, ActiveMQ.
-
Familiaridad con herramientas de automatización moderna (n8n) y gestión de proyectos (Jira, Confluence).
Deseable
-
Experiencia con herramientas de seguridad en la nube (Wiz).
-
Conocimientos de gestión de backups y recuperación ante desastres (Velero).
-
Familiaridad con modelos de lenguaje o integración de IA (Claude) en procesos DevOps.