In 5 Schritten zu operativer Reife im Incident-Management

Kundenabwanderung, ungeplante Betriebsstörungen und IT-Ausfallzeiten stellen Unternehmen vor große Herausforderungen. Der Wettbewerb ist hart. Die Kundenerwartungen sind hoch. Jedes dieser Probleme kann erhebliche Auswirkungen auf den reibungslosen Geschäftsbetrieb, das Ansehen des Unternehmens und den Geschäftsgewinn haben. Das Prinzip der Operativen Reife adressiert diese drei Herausforderungen und maximiert den Geschäftserfolg.
Von   Lee Fredericks   |  EMEA Director of Solutions Consulting   |  PagerDuty
22. Dezember 2023

Das Uptime Institut untersucht jährlich die Verfügbarkeit und Ausfallsicherheit von Rechenzentren sowie die Auswirkungen von Ausfällen. Laut aktuellen Ergebnissen der Umfrage sinkt die Zahl der Ausfälle seit ein paar Jahren konstant. Allerdings steigen die Kosten pro Stunde im Fall eines Ausfalles. Beides lässt sich auf die stark zunehmende Digitalisierung der Gesellschaft im letzten Jahrzehnt zurückführen. Dienstleistungen, die online oder per App erbracht werden, wurden zum zentralen Bestandteil des Geschäftsangebots. Die Modernisierung und Erweiterung der Infrastruktur auf Cloud-Dienste sorgt für eine höhere Stabilität der Infrastruktur – macht sie aber gleichzeitig auch komplexer.

Eine wichtige Rolle für Stabilität und Belastbarkeit der IT-Services spielt die operative Reife. Sie hilft, die allgemeine Leistungsfähigkeit zu steigern und ist die Grundlage, auf der Unternehmen konsistente, zuverlässige und vorhersehbare Dienstleistungen erbringen können.
Unternehmen durchlaufen in der Regel mehrere Stufen, um die volle Reife zu erreichen. Um den aktuellen Reifegrad eines Unternehmens bestimmen zu können, wird die Einhaltung einer Reihe von definierten Kriterien analysiert. Eine standardisierte und kontinuierliche Optimierung von Prozessen entscheidet über das erfolgreiche Erreichen der nächsten Phase. Bevor sie sich auf den Weg machen, müssen Technologieverantwortliche allerdings zunächst die aktuelle Arbeitsbelastung sowie die Praktiken und Prozesse ihrer Teams verstehen.

Vom manuellen Prozess zur proaktiven Organisation

 

Der Prozess zur operativen Reife umfasst in der Regel fünf Phasen. Zu Beginn werden auf Basis einer Ist-Analyse geeignete Maßnahmen evaluiert. In der zweiten Phase werden die Maßnahmen implementiert und anschließend ausgeführt. Die vierte Phase ist wichtig für die weitere Entwicklung: Ein ehrliches Review hilft dabei, eventuelle Schwächen zu erkennen und Optimierungspotential abzuleiten. In einem Post-Implementation Review (PIR) wird bewertet, ob die erwarteten Effekte eingetreten sind und die Ziele erreicht wurden. In der letzten Phase werden Bereiche für die weitere Entwicklung identifiziert. In der Lernphase geht es darum, die Gründe für Abweichungen von einem erwarteten Ergebnis zu verstehen und welche Korrekturen vorgenommen werden müssen. Die gelernten Lektionen führen dann wieder zu einer neuen Implementierungsphase.

 

Je nach Ausgangslage ist der Prozess zur operativen Reife langwieriger. Prinzipiell kann zwischen fünf verschiedenen Ausgangspositionen unterschieden werden. Am Beispiel Incident Management sind die Phasen wie folgt.

  • MANUELL: Es gibt keine Quellsystem-Integrationen. Vorfälle werden manuell ausgelöst.
  • REAKTIV: Es gibt einige Quellsystem-Integrationen, jedoch keine weiterführenden Konfigurationen. Es sind keine Prozesse für die Verwaltung von Vorfällen  definiert.
  • RESPONSIVE: Es gibt definierte Bereitschaftspläne und mehrere Eskalationsstufen. Die Teams bewegen sich in Richtung voller Service-Verantwortung (Full Service Ownership).
  • PROAKTIV: (Bi-direktionale) Drittsystem-Integrationen, Service-Abhängigkeiten, Change-Ereignisse und Reaktionsspiele helfen, Probleme zu beheben, bevor Kunden sie bemerken.
  • PRÄVENTIV: AIOps-Funktionen und der Einsatz von Analyse-Tools ermöglichen die Vermeidung von Problemen.

 

Kontinuierlicher Lernprozess – und Automatisierung mit KI

 

Je mehr Phasen durchlaufen sind und je weiter ein Unternehmen im Reifeprozess fortgeschritten ist, desto souveräner können ungeplante Vorfälle bewältigt und Ressourcen effizienter eingesetzt werden. Die Stabilität der betrieblichen Systeme und Prozesse verbessert sich. Das Wachstum durch die Phasen dieses fünfstufigen Modells reduziert zudem ungeplante Vorfälle und Ausfallzeiten – die Hauptursachen für Kundenabwanderung.

 

Incidents außerhalb regulärer Arbeitszeiten führen zu einer erhöhten Belastung und Fluktuation der Mitarbeiter. Dies unterstreicht die Notwendigkeit, proaktive und präventive Maßnahmen zu ergreifen. Häufige Serviceunterbrechungen, Ausfälle und Supportanfragen sind Symptome für eine geringe operative Reife. Betroffene Teams sind ohne Unterstützung nicht in der Lage, große Projekte termingerecht durchzuführen oder sich gar strategischen Aufgaben zu widmen.

 

Ein wichtiger Schritt zur operativen Reife sind Investitionen in das Incident Management. Operations-Cloud-Modelle mit Automatisierung und Orchestrierung helfen, Prozesse zu demokratisieren und Aufgaben intelligent zu delegieren. Die Automatisierung von Diagnose- und Abhilfemaßnahmen führt zu einer effizienteren Auslastung der verfügbaren Kapazitäten. Betriebliche Abläufe werden rationalisiert und das Risiko menschlicher Fehler verringert. Der verringerte Zeit- und Arbeitsaufwand für manuelle Tätigkeiten gibt den Teams mehr Raum für wertschöpfende Tätigkeiten.

 

Unternehmen müssen ihre digitalen Abläufe stabilisieren und die Infrastruktur, Software sowie geschäftskritische Anwendungen optimieren. Der Abbau technischer Altlasten ist dabei eine Kernaufgabe auf dem Weg zur operativen Reife. Genauso wie Cloud Computing die IT-Prozesse abstrahiert und verbessert, befähigt ein höherer Automatisierungsgrad die operativen Teams dazu, die Flut von Observability-Daten zu interpretieren und in relevante Maßnahmen umzuwandeln.

 

Praxistipps und Quick Wins

 

Den Teams sollten die Werkzeuge zur Verfügung gestellt werden, mit denen sie am besten arbeiten können. Einheitliche und übersichtliche Benutzeroberflächen helfen, Informationen schnell zu verarbeiten und Reaktionszeiten zu verkürzen. Die Vorgabe dabei sollte „remote-first“ und verteilt sein, um das Krisenmanagement in jeglichen Situationen zu erleichtern. Es ist ratsam, alle eingesetzten Lösungen auf allen verwendeten Unternehmensplattformen verfügbar zu machen und den aktuellen Technologie-Stack des Unternehmens für die Kommunikation nutzen.

 

Responder und Stakeholder sollten in der Lage sein, Updates über sich entwickelnde Echtzeit-Ereignisse in den ihnen vertrauten Tools für Zusammenarbeit, ITSM, Kundendienst und Betrieb auszutauschen. Lösungen, die Nachrichten aus diesen unterschiedlichen Werkzeugen und Plattformen konsolidieren und synchronisieren, unterstützen Teams wie Verantwortliche im Unternehmen dabei, technische Aktualisierungen ohne Reibungsverluste zu sehen und zu verstehen.

 

Ein höherer operativer Reifegrad bedeutet mehr Eigenverantwortung und Kontrolle für den Einzelnen im Team. Techniken des maschinellen Lernens filtern Unwesentliches – das sogenannte Rauschen – heraus, während die Automatisierung schnell das richtige Team zusammenbringt. So können Unternehmen schnell und angemessen auf jede Situation (geplant oder ungeplant) reagieren. Der effiziente Umgang mit Ereignissen verschafft dem Unternehmen mehr Zeit für Innovationen und wichtige, strategische Projekte.

 

Der Fokus sollte auf der Bereitstellung automatisierter Lösungen liegen. Bei der Auswahl und Beschaffung geeigneter Lösungen müssen geschäftliche Prioritäten, verfügbare Budgets und technische Fähigkeiten der betroffenen Teams beachtet werden. Ingenieure, Entwickler und Service-Teams sollten die notwendige Schulung und Unterstützung erhalten, um den Übergang von einer “Break-Fix”-Welt zu einer “Operations Cloud”-Welt zu bewältigen.

 

Werkzeuge und Prozesse in Technologie- und Geschäftsumwandlungsprojekten müssen zukunftssicher sein. Nur so lassen sich die Stabilität der Unternehmensinfrastruktur erhöhen und Abwanderung, Störungen sowie Ausfallzeiten reduzieren.

 

Fazit

 

Um die operative Reife zu erreichen, müssen sich Unternehmen auf Standardisierung und Compliance konzentrieren. Die Einführung von Standardprozessen und -verfahren vereinheitlicht Abläufe und macht sie vorhersehbar. Das minimiert die Auswirkungen von Incidents und Ausfallzeiten.

 

Der Weg zur operativen Reife ist Teil einer Transformation, bei der operative Teams mit weniger Aufwand mehr erreichen und erhebliche Kosteneinsparungen erzielen können. Mitarbeitende erhalten dadurch wertvolle Innovationszeit zurück und übernehmen mehr Eigenverantwortung für die Dienste, die sie entwickeln und unterstützen. Das wiederum kann dazu beitragen, die Personalfluktuation und Burnout zu verringern. Das Engagement für die operative Reife ist die für den wirtschaftlichen Erfolg notwendige Zukunftsinvestition.

Lee Fredericks unterstützt Unternehmen dabei, durch operationale Resilienz Wettbewerbsvorteile zu erzielen. Er startete seine Kariere zunächst im Bereich Konstruktion und Belastungsanalyse und wechselte dann in die Softwareentwicklung. Zuletzt hatte er verschiedene leitende Positionen bei IBM inne.

Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.

45434

share

Artikel teilen

Top Artikel

Ähnliche Artikel