Cloud & Plattform-Engineering

Cloud-Migration

Assessment, Risiko-Mapping, Abhängigkeitsanalyse. Migrationen ohne Ausfallzeit mit Hybrid Bridge — nicht 'wir verschieben es am Wochenende und hoffen'. Iterativer Ansatz mit Rollback-Plan für jeden Schritt.

Lift & Shift ist eine Falle. On-Prem-VMs ohne Redesign in die Cloud zu verschieben bedeutet dreifache Kosten bei gleichen Problemen. Wir migrieren strategisch — Assessment, Workload-Priorisierung, Hybrid Bridge, schrittweises Umschalten.

5R-Assessment-Framework: Für jeden Workload entscheiden wir: Rehost (Lift & Shift — nur für Legacy mit kurzer Lebensdauer), Replatform (Containerisierung, Managed Services), Refactor (Redesign für Cloud-Native), Replace (SaaS-Alternative), Retire (abschalten). Die meisten Workloads sind ein Mix aus Replatform + Refactor.

Hybrid Bridge: Alte und neue Welt laufen parallel. VPN/ExpressRoute zwischen On-Prem und Cloud. Schrittweises Service-Umschalten mit Traffic-Splitting und automatischem Rollback. Kein Big-Bang-Cutover.

Dependency Mapping: Bevor Sie irgendetwas migrieren, müssen Sie wissen, was wovon abhängt. Automatische Discovery (Azure Migrate, AWS Migration Hub) + manuelle Validierung. Ergebnis: Abhängigkeitsgraph mit Risikobewertung für jeden Workload.

Typischer Zeitplan: Assessment (2–4 Wochen) → Pilot (4–6 Wochen, 2–3 Services) → Wave Migration (2–4 Services/Monat) → Konsolidierung (4–6 Wochen). Insgesamt 3–12 Monate je nach Größe.

Migrationassessmenthybrid

Details →

Infrastructure as Code

Terraform, Pulumi, GitOps. Infrastruktur versioniert, getestet, reproduzierbar. Nie wieder 'wer hat die Firewall-Regeln geändert' — alles ist in Git mit Code Review.

Manuelle Infrastruktur ist technische Schuld. Ein per SSH-Konsole konfigurierter Server ist ein Snowflake — niemand weiß genau, wie man ihn reproduziert, die Dokumentation ist veraltet, Disaster Recovery ist ein Ratespiel. IaC eliminiert das.

Terraform vs. Pulumi: Terraform (HCL) ist der Industriestandard — riesiges Ökosystem an Providern, ausgereiftes Tooling, große Community. Pulumi ermöglicht Infrastruktur in TypeScript/Python — besser für Teams, die keine weitere Sprache lernen wollen. Wir wählen nach Team-Kontext.

GitOps-Workflow: Alle Infrastrukturänderungen gehen über Pull Requests. Code Review, automatisierte Tests (terraform validate, tflint, checkov für Security), Plan-Preview in PR-Kommentaren. Merge = Apply. Audit-Trail in der Git-Historie.

Modularisierung: Terraform-Module für Standardmuster — VPC/VNet, Kubernetes-Cluster, Datenbank, Monitoring-Stack. Internes Modul-Registry. Neues Team bekommt produktionsreife Infrastruktur in Stunden, nicht Wochen.

State Management: Remote State in verschlüsseltem Storage (S3 + DynamoDB Lock, Azure Blob + Lock). State Locking für Teamzusammenarbeit. Drift Detection — automatische Erkennung manueller Änderungen.

terraformpulumiiac

Details →

Kubernetes & containers

AKS, EKS, GKE — Managed Kubernetes mit Helm Charts, ArgoCD für GitOps und Progressive Delivery. Von Dev-Umgebungen bis Produktion mit konsistenter Konfiguration.

Kubernetes ist nicht für jeden — aber wenn Sie es brauchen, machen wir es richtig. K8s macht Sinn bei 5+ Microservices, Multi-Cloud-Anforderungen oder spezifischen Betriebsanforderungen (Auto-Scaling, Service Mesh, Progressive Delivery).

Managed Kubernetes: AKS (Azure), EKS (AWS), GKE (Google). Wir bauen keine eigenen Control Planes — Managed Service eliminiert 80 % des operativen Overheads. Fokus auf Workloads, nicht auf etcd-Backup.

GitOps mit ArgoCD: Deklaratives Deployment. Desired State in Git, ArgoCD synchronisiert den Cluster. Drift Detection — wenn jemand manuell etwas ändert, korrigiert ArgoCD es. Self-Healing-Cluster.

Helm + Kustomize: Helm Charts für Standardkomponenten (nginx, cert-manager, Monitoring). Kustomize für umgebungsspezifische Overlays (dev/staging/prod). Templating ohne Template-Hell.

Progressive Delivery: Argo Rollouts für Canary- und Blue-Green-Releases. Automatisierte Analyse (Prometheus-Metriken) entscheidet über Rollout/Rollback. Istio/Linkerd Service Mesh für Traffic Splitting und mTLS.

kuberneteshelmargocd

Details →

CI/CD Pipeline

GitHub Actions, GitLab CI, Azure DevOps. Vom Commit zur Produktion in Minuten mit automatisierten Quality Gates, Security-Scans und Progressive Delivery.

CI/CD ist nicht nur Build und Deploy. Es ist die gesamte Delivery-Pipeline — vom Commit über Tests, Security-Scans, Quality Gates, Staging-Validierung bis zum progressiven Rollout in die Produktion. Jeder Schritt automatisiert, messbar, auditierbar.

Pipeline-Architektur: Build → Unit Tests → SAST (Security) → Container Build → Integrationstests → Deploy auf Staging → E2E-Tests → Deploy auf Prod (Canary) → Automatisierte Analyse → Vollständiger Rollout. Gesamter Flow < 15 Minuten für typischen Service.

Quality Gates: Automatisierte Checks, die das Deployment bei Fehlschlag stoppen. Testabdeckung < Schwellenwert? Stopp. Sicherheitslücke (critical/high)? Stopp. Performance-Regression > 10 %? Stopp. Keine manuelle Freigabe für Standardänderungen.

Monorepo vs. Polyrepo: Wir unterstützen beides. Für Monorepo: Affected Detection (nur geänderte Services werden gebaut/deployed). Für Polyrepo: Standardisierte Pipeline-Templates, die über alle Repos geteilt werden.

Metriken: DORA-Metriken als Feedback-Loop. Deployment-Frequenz, Lead Time, Change Failure Rate, MTTR. Dashboard für Engineering-Leadership. Trends, nicht Snapshots.

cicdgithub-actionsgitlab

Details →

Observability & SRE

Grafana, Prometheus, Loki, Jaeger, OpenTelemetry. SLO/SLI, Error Budgets, Runbooks. Sie wissen WARUM es ein Problem gibt, nicht nur DASS es eins gibt — und Sie haben einen Prozess zur Lösung.

Monitoring sagt Ihnen DASS. Observability sagt Ihnen WARUM. Drei Säulen: Metriken (Prometheus), Logs (Loki), Traces (Jaeger/Tempo). OpenTelemetry als Standard-Instrumentierung — herstellerunabhängig, einmal instrumentieren, überallhin exportieren.

SLO/SLI-Framework: Wir definieren Service Level Objectives für jeden kritischen Service. SLI (Metriken) misst die Realität, SLO (Ziel) definiert akzeptable Qualität. Error Budget = wie viel „Fehlerhaftigkeit” Sie sich leisten können. Wenn das Error Budget aufgebraucht ist, Feature-Arbeit stoppen, Zuverlässigkeit verbessern.

Alerting-Philosophie: Wir alerten auf Symptome, nicht auf Ursachen. „API Error Rate > 1 %” ist ein guter Alert. „CPU > 80 %” ist ein schlechter Alert (CPU kann bei 95 % sein und alles funktioniert). Page nur für handlungsrelevante Alerts — wenn der Bereitschaftsdienst nichts tun kann, ist es kein Page.

SRE-Prozesse: Bereitschaftsrotation, Incident Management (Severity-Klassifizierung, Kommunikationsprotokoll, Eskalation), Post-Mortems ohne Schuldzuweisungen. Runbooks für die Top-10-Incidents. Toil-Tracking und -Eliminierung.

Dashboards: Executive Dashboard (SLO-Compliance, Verfügbarkeit, Kosten), Engineering Dashboard (Latenz, Fehlerrate, Durchsatz pro Service), On-Call Dashboard (aktive Incidents, kürzliche Deployments, Anomalieerkennung).

observabilitysregrafana

Details →

FinOps

Cloud-Kostenoptimierung als kontinuierlicher Prozess. Sie wissen, wie viel Sie pro Arbeitseinheit bezahlen, nicht für ungenutzte Ressourcen. Typischerweise 30–50 % Einsparung gegenüber dem nicht-optimierten Zustand.

Die Cloud-Rechnung ist kein Wetterbericht — sie ist ein steuerbarer Prozess. Die meisten Unternehmen zahlen 30–50 % mehr für die Cloud als nötig. Ungenutzte Reserved Instances, überdimensionierte VMs, vergessene Ressourcen, nicht-optimiertes Storage Tiering.

Kostentransparenz: Tagging-Strategie (Team, Umgebung, Projekt, Kostenstelle). Kostenzuordnung pro Team/Projekt/Service. Showback/Chargeback-Modell — Teams sehen, was ihre Services kosten. Wenn Sie den Preis sehen, verhalten Sie sich anders.

Optimierungstechniken: Reserved Instances/Savings Plans (Commitment = 30–60 % Rabatt), Right-Sizing (die meisten VMs sind 2–4× überdimensioniert), Spot/Preemptible Instances für nicht-kritische Workloads, Autoscaling (Scale to Zero in Dev/Staging), Storage Tiering (Hot → Cool → Archive).

Kontinuierliche Optimierung: Monatliche Kostenüberprüfung mit Empfehlungen. Automatische Alerts bei Kostenanomalien (unerwarteter Spike). Waste Detection (ungenutzte Disks, nicht zugewiesene IPs, idle Load Balancer). FinOps-Dashboard mit Trends und Forecasting.

Stückkosten: Kosten pro Transaktion, Kosten pro Nutzer, Kosten pro API-Call. Wenn Sie die Stückkosten kennen, können Sie sinnvoll optimieren. „Wir kosten 0,003 CZK pro API-Call” ist handlungsrelevant. „Azure hat letzten Monat 500K gekostet” nicht.

finopscostoptimization

Details →

Platform Engineering

Aufbau einer internen Plattform, die Entwicklern standardisierte Service-Templates, einheitliches Logging, Metriken, Tracing, Self-Service-Umgebungen und Guardrails für Sicherheit und Kosten bietet.

Beispiel aus der Praxis: Unternehmen mit 8 Teams — jedes deployte anders. Nach Einführung der Plattform: ein Self-Service-Portal, Standard-CI/CD, Deploy in 10 Minuten, Zero-Touch-Observability.

✓ Self-Service für Entwickler (Deploy ohne Ops-Ticket)
✓ Golden Paths — standardisierte Service-Templates
✓ Guardrails für Sicherheit und Kosten
✓ DORA-Metriken als Feedback-Loop

99.95%

Plattform-Verfügbarkeit

<15 min

Deployment pipeline

40%

Cloud-Kosteneinsparung

<5 min

MTTR

Jak to děláme

1

Cloud Assessment

Wir bewerten die aktuelle Infrastruktur, Anwendungen und Bereitschaft für die Cloud-Migration.

2

Migrationsplan

Wir entwerfen Zielarchitektur, Roadmap und Übergangsstrategie mit minimalem Risiko.

3

Pilot-Migration

Wir verschieben erste Workloads, überprüfen Leistung, Sicherheit und Betriebsprozesse.

4

Vollständige Migration & Automatisierung

Vollständige Migration der verbleibenden Systeme mit IaC, CI/CD und Auto-Scaling.

5

Optimierung & FinOps

Kontinuierliche Optimierung von Kosten, Leistung und Governance über die Cloud-Umgebung.

When you need platform engineering¶

Typical situations¶

“We want to go to cloud” without strategy — Lift & shift for triple costs with same problems.
Releases hurt — Manual deploy, fear of Friday releases, rollbacks via SSH.
Snowflake servers — Servers configured manually, nobody knows how to reproduce them.
Cloud cost without control — Surprising bills at month end, no visibility.
Every team deploys differently — 8 teams, 8 pipeline variants, no standard.

Internal Developer Platform¶

Platform engineering isn’t just infrastructure — it’s a product for your developers. Self-service portal where a team creates new environment in minutes, deploys service, sets up monitoring — without operations ticket.

What the platform provides¶

Capability	Without platform	With platform
New environment	Ticket, 2 weeks	Self-service, 10 minutes
Deployment	Manual, scary	CI/CD, automatic
Monitoring	Each team different	Standard, zero-touch
Security	Audit at the end	Guardrails from start
Cost visibility	Monthly invoice	Real-time per team

Golden Paths¶

Standard templates for typical workloads:

Web API — Container, Kubernetes deployment, ingress, TLS, monitoring, CI/CD
Event consumer — Kafka consumer, dead letter queue, retry logic, monitoring
Scheduled job — CronJob/Azure Function, monitoring, alerting
Static site — CDN, TLS, CI/CD from git

Team selects golden path, fills parameters, platform creates everything needed. Guardrails built-in — security best practices, cost limits, naming conventions.

Migration process¶

From on-prem to cloud without downtime — 5 steps:

Assessment & Planning — 5R analysis (Rehost, Replatform, Refactor, Replace, Retire). Dependency mapping. Risk scoring. Migration roadmap with prioritization by business value.
Foundation — Landing zone setup. Networking (VPN/ExpressRoute), IAM, security baseline, monitoring. Terraform modules for standard patterns.
Pilot Migration — 2-3 workloads with different risk profiles. Process validation, tooling, rollback. Lessons learned for next waves.
Wave Migration — Systematic migration in waves (2-4 workloads/month). Hybrid bridge, traffic shifting, automated validation.
Optimization & Decommission — FinOps optimization, decommission on-prem, SRE processes, knowledge transfer.

DORA metrics¶

We measure what really matters:

Deployment frequency — How many times per day you deploy. Elite: multiple per day.
Lead time for changes — From commit to production. Elite: < 1 hour.
Change failure rate — With guardrails under 5%. Elite: < 5%.
MTTR — From hours to minutes thanks to observability. Elite: < 1 hour.

Dashboard with trends, not snapshots. DORA metrics retrospective every 2 weeks.

Stack¶

Category	Technologies
Cloud	Azure, AWS, GCP
IaC	Terraform, Pulumi, Crossplane
Container	Docker, Kubernetes (AKS/EKS/GKE), Helm
GitOps	ArgoCD, Flux
CI/CD	GitHub Actions, GitLab CI, Azure DevOps
Observability	Grafana, Prometheus, Loki, Jaeger, OpenTelemetry
Service Mesh	Istio, Linkerd
Security	Vault, cert-manager, Falco, Trivy
FinOps	Kubecost, AWS Cost Explorer, Azure Cost Management

Häufig gestellte Fragen

Kommt auf den Kontext an. Azure ist stark im Enterprise- und Microsoft-Ökosystem. AWS hat das breiteste Angebot. GCP glänzt bei Daten und ML. Wir helfen bei der Auswahl und minimieren den Vendor Lock-in.

Einfache Migration: 4–8 Wochen. Komplexes Enterprise mit Compliance: 6–12 Monate. Wir migrieren iterativ — der erste Service läuft innerhalb von Wochen in der Cloud.

Nicht immer. Für einfache Anwendungen reicht App Service oder Lambda. Kubernetes macht Sinn bei 5+ Microservices, Multi-Cloud-Anforderungen oder spezifischen Betriebsanforderungen.

Typischerweise 30–50 % gegenüber dem nicht-optimierten Zustand. Reserved Instances, Right-Sizing, Spot Instances, automatisches Scaling. FinOps als kontinuierlicher Prozess.

Infrastructure as Code (Terraform) für Portabilität, Containerisierung (Docker/K8s) für Runtime-Agnostik, Abstraktion über Managed Services. 100 % Herstellerneutralität ist eine Illusion — aber 80 % Portabilität ist erreichbar und lohnt sich.

Azure Arc, AWS Outposts oder Anthos für konsistentes Management. VPN/ExpressRoute für Konnektivität. Einheitliches Monitoring und Deployment-Pipeline über beide Umgebungen.

Verwandt mit

Sicherheit & Compliance Zero Trust, IAM, Audit, Compliance.

QA, Testing & Observability Automatisiertes Testing, Monitoring und Observability-Stack.

Cloud & Plattform-Engineering

Cloud-Migration

Infrastructure as Code

Kubernetes & containers

CI/CD Pipeline

Observability & SRE

FinOps

Platform Engineering

Jak to děláme

Cloud Assessment

Migrationsplan

Pilot-Migration

Vollständige Migration & Automatisierung

Optimierung & FinOps

When you need platform engineering¶

Typical situations¶

Internal Developer Platform¶

What the platform provides¶

Golden Paths¶

Migration process¶

DORA metrics¶

Stack¶

Häufig gestellte Fragen

Verwandt mit

Haben Sie ein Projekt?