Trügerische Sicherheit: Datenverlust trotz RAID

bei

 / 10. Oktober. 2017

RAID-Systeme, also ein Verbund von mehreren Datenträgern wie Festplatten oder SSDs, sind gemeinhin der Standard für vermeintlich sichere Datenspeicherung. Sie werden sowohl in Server- und NAS-Systemen als auch bei Workstations eingesetzt – von Privatpersonen über KMUs bis hin zu großen Konzernen. Im Gegensatz zu einem PC oder Laptop besteht bei einem RAID-Verbund aufgrund der höheren Anzahl von Datenträgern paradoxerweise auch eine erhöhte Wahrscheinlichkeit für den Ausfall einer Festplatte oder SSD. Ohne Zugriff auf die wichtigen Daten kann im Worst Case der gesamte Betrieb stillstehen – Datenbanken, E-Mails und Dateiablagen sind mit einem Schlag offline!

Ein RAID ist kein Ersatz für Datensicherung!

RAID-Systeme erzeugen mit Hilfe teils komplizierter Algorithmen gezielt redundante Informationen. Dadurch bleibt beim Ausfall – je nach RAID-Level – einer oder mehrerer Festplatten die Funktionalität gewährleistet und nach Ersetzen des defekten Datenträgers kann im Optimalfall durch ein Rebuild der ursprüngliche Zustand wiederhergestellt werden. Diese Redundanz darf jedoch keineswegs mit einer Datensicherung verwechselt werden.

IT-Administratoren und EDV-Spezialisten sind nicht selten über den plötzlichen Verlust der Daten überrascht, ein teures Enterprise-Storage wurde angeschafft und es gab im Vorfeld keine Anzeichen eines baldigen Defektes. Des Rätsels Lösung ist oft ein multipler Ausfall von Festplatten oder SSDs. Meistens haben die Datenträger in den Storages den gleichen Lebenslauf: Produktion, Transport sowie Betriebsumgebung sind für alle im RAID vorhandenen Datenträger identisch. Auf all diesen Etappen lauern potentielle Gefahren:

Produktion

Defekte können bereits in der Produktion beim Hersteller auftreten. Oft weisen ganze Chargen von Festplatten Serienfehler auf. Diese können im Bereich der Firmware (interne Software eines Datenträgers), der Mechanik oder der Elektronik liegen. Da in RAID-Systemen nahezu immer Festplatten derselben Charge verbaut werden, können etwaige Serienfehler innerhalb eines kurzen Zeitraums auftreten. Gerade in der Nacht oder am Wochenende wird der erste Defekt oft nicht bemerkt oder sogar ignoriert – sobald dann auch der zweite Datenträger defekt wird, ist ein RAID5 bereits nicht mehr verfügbar.

Transport

Eine weitere Ursache für den nahezu gleichzeitigen Ausfall von mehreren Festplatten ist der Transport der Datenträger von der Fabrik über Reseller bis zum Einsatzort der Server oder RAIDs. Durch überhitzte Container, Erschütterungen oder anderen Umwelteinflüssen können hier bereits Schäden entstehen, die später im Betrieb zum Ausfall führen. Auch hier gilt: Selbe Charge bedeutet identische Probleme.

Betriebsumgebung

Nicht zuletzt spielt auch der laufende Betrieb eine wesentliche Rolle: Erschütterungen, Überhitzung und Überspannung können die Lebenszeit der Festplatten im RAID-Verbund wesentlich verkürzen, wiederum mit der gleichen Auswirkung auf alle Datenträger.

Elementarereignisse

Gewitter, Hochwasser, Feuer oder Erschütterungen (beispielsweise von Erdbeben oder Bauarbeiten vor der Tür) zerstören immer wieder mit einem Schlag mehrere Datenträger in einem RAID.

Der Ausfall eines RAID-Systems ist also durchaus wahrscheinlicher als man gemeinhin annehmen würde.

Ausfallsprävention bei RAID-Systemen

Zunächst scheint es sinnvoll, einfach Datenträger verschiedener Hersteller in RAID-Systemen einzusetzen. Dies kann jedoch zu Performance- und Kompatibilitätsproblemen führen. Die einzig sinnvolle Lösung ist das Anlegen einer externen Datensicherung, denn auf ein RAID-System alleine darf man sich nicht verlassen. Darüber hinaus sollte Folgendes beachtet werden:

  • Laufende Datensicherungen auf anderen externen Systemen abspeichern und nicht auf dem RAID selbst.
  • Die Sicherungen in regelmäßigen Abständen auf deren Vollständigkeit und Funktionalität überprüfen.
  • Konstantes Monitoring betreiben, um bereits beim Ausfall der ersten Platte eine Benachrichtigung per E-Mail, SMS oder Messenger-Dienst zu erhalten.
  • Vor dem Einspielen von Firmware-Updates ein vollständiges Backup anlegen und auf Integrität prüfen.
  • Falls eine Datensicherung vorhanden ist, sollten die Daten nicht auf die ursprünglichen Datenträger des RAID-Systems zurückgespielt werden, sondern neue Datenträger verwendet werden. Denn sollte die Datenrücksicherung doch nicht funktionieren oder nicht alle Daten vollständig gesichert worden sein, können professionelle Datenrettungsunternehmen die fehlenden Daten von den ursprünglichen RAID-Datenträgern meist noch rekonstruieren.

Der Autor: Dipl. Ing. Nicolas Ehrschwendner ist seit 20 Jahren geschäftsführender Gesellschafter der Attingo Datenrettung und seit über 30 Jahren in der IT-Branche tätig. Die Attingo Datenrettung betreibt hauseigene Reinraumlabore in Hamburg, Wien und Amsterdam.

Vorheriger ArtikelIoT & Smart-Devices im Heimnetz – „Adé Security!“ oder lösbare Herausforderung?
Nächster ArtikelSecurity-Regeln: Bei Daten-GAU plötzlich außer Kraft