Hundertserver GmbH

Senior Site Reliability Engineer (SRE)

Frankfurt, HE, DE

13 days ago
Save Job

Summary

Aufgaben

Deine Hundertserver-Mission

Als Site Reliability Engineer (SRE) bei Hundertserver bist du verantwortlich für den stabilen, performanten und sicheren Betrieb moderner Cloud-Plattformen. Du sorgst mit Automatisierung, Monitoring, SLAs und Incident Response dafür, dass unsere Systeme nicht nur laufen – sondern sich kontinuierlich verbessern. Dabei arbeitest du eng mit Kunden, Entwicklung und Infrastruktur-Teams zusammen, bringst Klarheit in komplexe Betriebsfragen und schaffst nachhaltige Lösungen – hands-on, pragmatisch und mit viel Eigenverantwortung.

Die Main Tasks

HauptverantwortlichkeitenVerfügbarkeit & Stabilität

  • Sicherstellung der Plattformverfügbarkeit entlang definierter SLOs / SLAs
  • Analyse und Behebung von Incidents & Performance-Problemen (On-Call inkl.)
  • Aufbau und Pflege robuster Alerting-, Logging- und Monitoring-Setups
  • Fehlerursachenanalyse (Root Cause) & präventive Maßnahmen

Automatisierung & Infrastruktur

  • Automatisierung von Bereitstellung, Skalierung und Wartung (IaC mit Terraform, Ansible etc.)
  • Betrieb und Weiterentwicklung von Kubernetes-Umgebungen (Cloud & On-Prem)
  • Entwicklung und Pflege von Self-Healing- und Auto-Scaling-Mechanismen
  • Einführung und Pflege von Runbooks & Playbooks

Monitoring, Observability & Performance

  • End-to-End Monitoring mit Tools wie Prometheus, Grafana, Loki, ELK
  • Aufbau und Betreuung von SLIs und SLOs – datenbasierte Plattformsteuerung
  • Performance-Analysen (Workloads, Traffic, DBs) und kontinuierliche Optimierung
  • Einrichtung & Wartung verteilter Tracing- und Logging-Systeme

Sicherheit & Betriebshygiene

  • Umsetzung und Kontrolle von Sicherheitsstandards (Least Privilege, TLS, Secrets Mgmt.)
  • Regelmäßige Health-Checks, Updates und Patching
  • Verfügbarkeitssicherung durch gelebte Backup- & Disaster-Recovery-Prozesse

Kollaboration & Beratung

  • Enge Zusammenarbeit mit Dev-, Support- und Plattformteams
  • Beratung von Kunden zu Betriebsmodellen, Plattformmetriken & Architekturentscheidungen

Schulung interner Teams in Themen wie Monitoring, SRE-Basics & Troubleshooting

Profil

Dein Background

Was du mitbringen solltestTechnisches Profil

  • Linux-Expertise (Debian, Ubuntu, RHEL)
  • Tiefe Kubernetes-Kenntnisse – Cluster, Ingress, Operators, Helm etc.
  • Erfahrung mit Cloud-Plattformen (AWS, Azure, GCP)
  • Sehr gute Kenntnisse in Monitoring-Stacks (Prometheus, Grafana, Loki, ELK)
  • Know-how in Infrastructure-as-Code (Terraform, Ansible, Puppet)
  • Scripting- und Automatisierungskenntnisse (Bash, Python, Go)
  • Vertraut mit Logging, Tracing & Incident-Management-Prozessen

Soft Skills & Arbeitsweise

  • Proaktives Troubleshooting & hohes Qualitätsbewusstsein
  • Strukturierte, analytische Denkweise – lösungsorientiert und pragmatisch
  • Sehr gute Kommunikationsfähigkeit (Kunde, Dev, Ops)
  • Fokus auf Nachhaltigkeit & Automatisierung statt Firefighting
  • Bereitschaft zu Bereitschaftsdiensten (Rufbereitschaft, SLA-Fenster)

Nice to Have

  • Zertifizierungen wie CKA / CKS / AWS DevOps oder vergleichbar
  • Erfahrung mit GitOps, ArgoCD oder Policy-as-Code
  • Kenntnisse in FinOps / Kostenoptimierung in Cloud-Plattformen

Wir bieten

Deine Benefits

Was dich bei Hundertserver erwartet

  • Echte Weiterentwicklung – in Technik, Methodik & Kultur
  • Moderne Plattformen & Tools – mit Raum für eigene Gestaltung
  • Eigenverantwortung & Vertrauen – wir arbeiten partnerschaftlich, nicht hierarchisch
  • Flexible Arbeitszeit & Remote-First-Kultur
  • Hands-on-Mentalität & direkter Kundenimpact

Important note

Please be advised that a valid work permit for Germany is required for non-EU citizens. Unfortunately, applications without a valid work permit and sufficient German language skills may not be considered.

LNKD1_DE

How strong is your resume?

Upload your resume and get feedback from our expert to help land this job

People also searched: