Hundertserver GmbH

Senior Site Reliability Engineer (SRE)

Frankfurt, HE, DE

13 days ago

Save Job

Summary

Aufgaben

Deine Hundertserver-Mission

Als Site Reliability Engineer (SRE) bei Hundertserver bist du verantwortlich für den stabilen, performanten und sicheren Betrieb moderner Cloud-Plattformen. Du sorgst mit Automatisierung, Monitoring, SLAs und Incident Response dafür, dass unsere Systeme nicht nur laufen – sondern sich kontinuierlich verbessern. Dabei arbeitest du eng mit Kunden, Entwicklung und Infrastruktur-Teams zusammen, bringst Klarheit in komplexe Betriebsfragen und schaffst nachhaltige Lösungen – hands-on, pragmatisch und mit viel Eigenverantwortung.

Die Main Tasks

HauptverantwortlichkeitenVerfügbarkeit & Stabilität

Sicherstellung der Plattformverfügbarkeit entlang definierter SLOs / SLAs
Analyse und Behebung von Incidents & Performance-Problemen (On-Call inkl.)
Aufbau und Pflege robuster Alerting-, Logging- und Monitoring-Setups
Fehlerursachenanalyse (Root Cause) & präventive Maßnahmen

Automatisierung & Infrastruktur

Automatisierung von Bereitstellung, Skalierung und Wartung (IaC mit Terraform, Ansible etc.)
Betrieb und Weiterentwicklung von Kubernetes-Umgebungen (Cloud & On-Prem)
Entwicklung und Pflege von Self-Healing- und Auto-Scaling-Mechanismen
Einführung und Pflege von Runbooks & Playbooks

Monitoring, Observability & Performance

End-to-End Monitoring mit Tools wie Prometheus, Grafana, Loki, ELK
Aufbau und Betreuung von SLIs und SLOs – datenbasierte Plattformsteuerung
Performance-Analysen (Workloads, Traffic, DBs) und kontinuierliche Optimierung
Einrichtung & Wartung verteilter Tracing- und Logging-Systeme

Sicherheit & Betriebshygiene

Umsetzung und Kontrolle von Sicherheitsstandards (Least Privilege, TLS, Secrets Mgmt.)
Regelmäßige Health-Checks, Updates und Patching
Verfügbarkeitssicherung durch gelebte Backup- & Disaster-Recovery-Prozesse

Kollaboration & Beratung

Enge Zusammenarbeit mit Dev-, Support- und Plattformteams
Beratung von Kunden zu Betriebsmodellen, Plattformmetriken & Architekturentscheidungen

Schulung interner Teams in Themen wie Monitoring, SRE-Basics & Troubleshooting

Profil

Dein Background

Was du mitbringen solltestTechnisches Profil

Linux-Expertise (Debian, Ubuntu, RHEL)
Tiefe Kubernetes-Kenntnisse – Cluster, Ingress, Operators, Helm etc.
Erfahrung mit Cloud-Plattformen (AWS, Azure, GCP)
Sehr gute Kenntnisse in Monitoring-Stacks (Prometheus, Grafana, Loki, ELK)
Know-how in Infrastructure-as-Code (Terraform, Ansible, Puppet)
Scripting- und Automatisierungskenntnisse (Bash, Python, Go)
Vertraut mit Logging, Tracing & Incident-Management-Prozessen

Soft Skills & Arbeitsweise

Proaktives Troubleshooting & hohes Qualitätsbewusstsein
Strukturierte, analytische Denkweise – lösungsorientiert und pragmatisch
Sehr gute Kommunikationsfähigkeit (Kunde, Dev, Ops)
Fokus auf Nachhaltigkeit & Automatisierung statt Firefighting
Bereitschaft zu Bereitschaftsdiensten (Rufbereitschaft, SLA-Fenster)

Nice to Have

Zertifizierungen wie CKA / CKS / AWS DevOps oder vergleichbar
Erfahrung mit GitOps, ArgoCD oder Policy-as-Code
Kenntnisse in FinOps / Kostenoptimierung in Cloud-Plattformen

Wir bieten

Deine Benefits

Was dich bei Hundertserver erwartet

Echte Weiterentwicklung – in Technik, Methodik & Kultur
Moderne Plattformen & Tools – mit Raum für eigene Gestaltung
Eigenverantwortung & Vertrauen – wir arbeiten partnerschaftlich, nicht hierarchisch
Flexible Arbeitszeit & Remote-First-Kultur
Hands-on-Mentalität & direkter Kundenimpact

Important note

Please be advised that a valid work permit for Germany is required for non-EU citizens. Unfortunately, applications without a valid work permit and sufficient German language skills may not be considered.

LNKD1_DE

Hundertserver GmbH

Senior Site Reliability Engineer (SRE)

Frankfurt, HE, DE

Summary

How strong is your resume?

How strong is your resume?

MORE JOBS LIKE THIS

People also searched:

Our Company

Career Guides

Career Advice

Support