Multi-Cloud-Sicherheit

bei

 / 15. October. 2021

Komplexität beherrschen durch Machine Learning

Im Zuge ihrer digitalen Transformation haben bereits viele deutsche Unternehmen Multi-Cloud-Infrastrukturen eingeführt, um Single-Points-of-Failure zu vermeiden und die Angebote der Cloud-Provider in technischer und wirtschaftlicher Hinsicht optimal zu kombinieren. Im täglichen Betrieb zeigt sich nun aber, dass dieser Schritt neben unbestreitbaren Vorteilen auch erhebliche Herausforderungen mit sich bringt: Der Komplexitätsgrad des Cloud-Infrastrukturmanagements wird durch Multi-Clouds um ein Vielfaches gesteigert, sodass Sicherheit und Compliance mit den bislang bewährten Methoden kaum noch umgebungsweit gewährleistet werden können.

Die unzähligen Abhängigkeiten der Multi-Cloud-Komponenten vergrößern die Angriffsfläche und erschweren die Nachverfolgung von Angriffsvektoren. Ohne zentralisierte Sichtbarkeit aller Vorgänge in der Infrastruktur gleicht die Jagd nach Eindringungspunkten einem Blindflug. Angesichts der Dynamik von Multi-Clouds wird die vorausschauende Definition von Regeln, jahrzehntelang das A und O des Sicherheitsmanagements, zur Sisyphus-Aufgabe.

Unternehmen verlieren Vertrauen

Vor diesem Hintergrund verlieren viele Unternehmen das Vertrauen in ihre Fähigkeit, Cyberangriffe in Multi-Clouds zu beherrschen, zu diesem Ergebnis kommt eine Studie [1] aus dem September 2020: Je mehr Cloud-Dienste genutzt werden desto größer ist die Bereitschaft, auf Ransomware-Forderungen einzugehen. Nur 10 Prozent der deutschen Unternehmen, die weniger als fünf Cloud-Dienste einsetzen, zahlten einen Teil des Lösegeldes. Von den Unternehmen mit mehr als zwanzig eingesetzten Cloud-Diensten gingen hingegen 60 Prozent auf die gesamte Lösegeldforderung ein. Nur ein knappes Viertel der befragten Unternehmen glaubt, dass die vorhandene IT-Sicherheit mit der Komplexität der Multi-Cloud Schritt halten kann.

Multi-Clouds multiplizieren Aufwand

Primär Regel- und Signaturen-basierte Sicherheitslösungen sind nicht Cloud-nativ, sondern stammen aus einer Ära klar abgesteckter Perimeter und vorsichtig geplanter Change-Prozesse. Cloud-Umgebungen sind aber ihrer Natur nach dynamisch und veränderlich, sodass die Definition granularer Regeln nie abgeschlossen ist. Um die Anzahl der False Positives zu reduzieren, werden Regeln außerdem meist für eindeutig definierbare Szenarien geschrieben, was die Effektivität bei ganz neuen Bedrohungen oder Vorfällen in der Grauzone begrenzt.

Multi-Clouds multiplizieren sowohl den Aufwand als auch die Komplexität der Regeldefinition, die jetzt für alle genutzten Cloud Provider durchgeführt werden muss. Entwickler können zum Beispiel Infrastrukturressourcen mit den vergleichbaren Services AWS CloudFormation, Azure Resource Manager oder Google Cloud Deployment Manager bereitstellen und verwalten. Wenn nun gewährleistet werden soll, dass die Ausführung von Build-Skripts in allen drei Clouds immer den aktuellen Sicherheitsregeln des Unternehmens entspricht, so verdreifacht sich der Aufwand.

Alarmflut überfordert Sicherheitsteams

Der Aufwand der Regeldefinition ließe sich theoretisch durch mehr Personal auffangen – praktisch sind solche Fachkräfte mit aktuellem Know-how kaum verfügbar. Aber herkömmliche Ansätze stoßen auch in anderer Hinsicht an ihre Grenzen: Häufig konzentrieren sich die eingesetzten Sicherheitswerkzeuge auf ganz bestimmte Aspekte, was zu Informationssilos und unzähligen Alarmen führt.

Ohne Kontextinformationen und Priorisierung ist eine sinnvolle Verarbeitung der anfallenden Datenmengen in Multi-Cloud-Umgebungen nicht mehr menschenmöglich. Weitere Probleme für die Angriffsanalyse entstehen durch die begrenzte Sichtbarkeit von Microservices, Data Caches und temporären IP-Adressen, die oftmals nur wenige Minuten aktiv sind und dann gelöscht werden. Alle Aktivitäten, die nicht in dieser kurzen Zeit erfasst werden, gehen für Sicherheitsanalysen verloren.

Verhaltensbasierte Sicherheit eliminiert Regeln

Die künftige Entwicklung scheint absehbar: DevOps, Container und Technologien wie Serverless Computing drehen die Komplexitätsspirale weiter und erfordern gleichzeitig immer schnellere Reaktionen von der IT-Sicherheit. Dadurch entstehen fast unweigerlich nicht erkannte Sicherheitslücken in der Multi-Cloud, die von professionellen Angreifern ausgenutzt werden.

Um dieser Entwicklung zuvorzukommen, ist eine wachsende Zahl von Unternehmen bereit, den eigenen Sicherheitsansatz für die Cloud-Welt auf den Prüfstand zu stellen. Zwei Überlegungen stehen dabei im Fokus: Erstens muss ausnahmslos jede Multi-Cloud-Komponente zentral überwacht werden, blinde Flecken sind absolut inakzeptabel. Zweitens muss die Überwachung vollständig automatisiert ablaufen, denn die produzierten Datenmengen können manuell nicht ausgewertet werden. Händische Regeldefinitionen und Log-Auswertungen sind ausgeschlossen.

Diese Vorgaben lassen sich durch ein lückenloses Monitoring der Cloud-Prozesse und eine Machine-Learning-gestützte Analyse des Normalzustandes erreichen. Prozesse bilden die kleinsten vom Betriebssystem unterstützten Einheiten und sind verantwortlich für die gesamte Kommunikation, sowohl miteinander als auch mit externen Hosts. Sie haben zudem nachverfolgbare Startumstände, Hashwerte, Zwecke und Lebenszyklen und werden nicht zwischen unterschiedlichen Applikationen gemischt.

Baseline zeigt Normalzustand

In Echtzeit werden alle Interaktionen zwischen Prozessen erfasst, auch wenn sie innerhalb derselben Datei stattfinden. Das Monitoring erstreckt sich auf Prozesshierarchien, Prozesse/Machine-Kommunikation, Änderungen an Anwender-Privilegien, interne und externe Datentransfers und alle anderen Cloud-Aktivitäten. Auf Basis dieser lückenlosen Überwachung kann mittels Machine Learning eine temporale Baseline erstellt werden, die Aufschluss gibt über das normale Verhalten von Anwendern, Applikationen und Workloads in der Multi-Cloud.

Die gesammelten Daten werden zudem entsprechend der zugehörigen Cloud-Entität in Analysegruppen organisiert. Verhaltensbasiertes Machine Learning vergleicht das aktuelle Verhalten einer Cloud-Entität einerseits mit ihrem bekannten Verhalten im Zeitverlauf, andererseits aber auch mit dem bekannten Verhalten ähnlicher Cloud-Entitäten in der jeweiligen Analysegruppe. Anomalien, also alle abweichenden Aktivitäten, heben sich vor diesem Normalzustand deutlich ab.

Wert für die Sicherheitspraxis

Der automatisierte Abgleich mit dem bekannten Verhalten und der Analysegruppe identifiziert bekannte und unbekannte Bedrohungen. Viele Aktivitäten, die sich mit Regeln nur schwer erfassen lassen, können jetzt im Kontext bewertet werden. Dazu gehören zum Beispiel der Ab- oder Zufluss ungewöhnlicher Datenmengen in Amazon S3 Buckets, unerwartete Verbindungen von Applikationen, auffällige API-Aufrufe durch Container sowie jedes nicht normale Anwender-Verhalten.

Weil die Technologie den Normalzustand kennt, kann sie zudem viele reguläre Aktivitäten im Cloud-Datacenter als Bedrohung ausschließen. Das senkt die Zahl der False Positives und Alarme. Diese drastische Reduktion der Komplexität ermöglicht es der IT-Sicherheit, Multi-Cloud-Initiativen aktiv zu unterstützen, ohne Kompromisse beim Schutz einzugehen.

Referenzen:

[1] „The 2020 Ransomware Resiliency Report”, Wakefield Research im Auftrag von Veritas Technologies, September 2020

Über den Autor / die Autorin:


Bernd Mährlein hat langjährige Erfahrung im Technologiesektor und ist seit Anfang 2021 als Area Director bei Lacework für den Aufbau der Region Central Europe zuständig. Zuvor war er bereits in verschiedenen Rollen bei Unternehmen wie Cybereason, MongoDB, Intralinks und SAP tätig.