Check similar jobs, what people also searched, or create a job alert for Site reliability engineer sre sr jobs in Belo Horizonte, Minas Gerais, Brazil
Netvagas
Site reliability engineer sre sr
Belo Horizonte, Minas Gerais, Brazil
8 days ago
Save Job
Summary
Início: Assim que aprovado.
Prazo: Indeterminado, fazer parte do time da consultoria.
Objetivo Da Posição
Buscamos um Site Reliability Engineer (SRE) para reforçar a confiabilidade da nossa plataforma, atuando com observabilidade, automação e boas práticas de segurança. O profissional será responsável por garantir que nossas aplicações tenham um monitoramento eficiente, disponibilidade consistente e processos robustos para recuperação e mitigação de incidentes.
Formação: Graduação completa ou em andamento em Ciência da Computação, Engenharia da Computação ou áreas relacionadas.
Experiência como SRE, DevOps ou Engenheiro de Plataforma
Conhecimento aprofundado em Kubernetes e observabilidade
Capacidade de troubleshooting e otimização de performance
Interesse em automação e infraestrutura como código
Boa comunicação e habilidade para trabalhar em equipe
Experiência Ou Conhecimento Nas Seguintes Tecnologias
Cloud & Orquestração
AWS (ECS, Elastic Beanstalk, EKS)
Kubernetes (EKS)
Istio (mutualTLS, observabilidade de tráfego, roteamento)
Observabilidade & Monitoramento
Grafana, Prometheus, Loki
OpenTelemetry (Library, Agent, Sidecar)
Grafana Tempo e Kiali
Infraestrutura & Automação
Terraform (com migração para OpenTofu)
Docker e containerização
CI/CD com GitHub Actions, CodePipeline, Jenkins
Segurança e Performance
Segurança em ambientes Kubernetes e AWS
Implementação e monitoramento de tráfego seguro
Estratégias de mitigação de falhas e alta disponibilidade
Responsabilidades
Monitoramento & Observabilidade: Aprimorar e gerenciar ferramentas de monitoramento (Grafana, Prometheus, Loki, OpenTelemetry, Grafana Tempo, Kiali).
Gestão de Tráfego & Segurança: Melhorar a implementação e observabilidade do Istio, incluindo mutualTLS, controle de tráfego e métricas de segurança.
Cloud & Kubernetes: Gerenciar workloads em EKS, incluindo troubleshooting, escalabilidade e melhorias de deploy.
Infraestrutura como Código (IaC): Manutenção e otimização do provisionamento de infraestrutura utilizando Terraform e suporte à migração para OpenTofu.
CI/CD & Automação: Aprimorar e manter pipelines de GitHub Actions, CodePipeline e Jenkins para garantir entregas ágeis e seguras.
Prevenção & Resolução de Incidentes: Implementar soluções para reduzir tempo de recuperação (MTTR) e melhorar a resposta a falhas.
Melhoria Contínua: Propor otimizações contínuas para performance, segurança e custos na nuvem AWS.
How strong is your resume?
Upload your resume and get feedback from our expert to help land this job
How strong is your resume?
Upload your resume and get feedback from our expert to help land this job