Was uns das rasante Datenwachstum der letzten 15 Jahre lehrt
Im digitalen Zeitalter steigt das Volumen der weltweit generierten Daten exponentiell an. Je mehr Prozesse digitalisiert werden und je mehr Geräte im Internet der Dinge miteinander vernetzt sind, umso größer die tägliche Datenflut. Für die meisten Nutzer ist das Motto im Umgang mit Daten zwar „aus den Augen, aus dem Sinn“. Doch weil wir digitale Informationen heute in nahezu unüberschaubaren Mengen erstellen und konsumieren, werden wir im privaten wie im geschäftlichen Umfeld mit Daten überschwemmt – und all diese Daten müssen entsprechend bearbeitet, kategorisiert und irgendwo gespeichert werden. Ein Trend, der sich schon lange abzeichnet. Doch der Schneeballeffekt der letzten Jahre hat dazu geführt, dass Daten inzwischen in vielen Fällen deutlich schneller generiert werden, als sie verwaltet werden können. Und das erzeugt wachsende Probleme.
Um nachzuvollziehen, wie wir an diesen Punkt gelangt sind, brauchen wir nur einen Blick zurück auf die letzten 15 Jahre werfen. Damals begannen die gegenwärtigen Herausforderungen im Datenbereich gerade erst, Gestalt anzunehmen. Beispielsweise waren im Jahr 2010 selbstfahrende Fahrzeuge noch in der Testphase. Im Mai 2012 erhielt Google im US-Bundesstaat Nevada die erste Zulassung für ein autonomes Fahrzeug, das auf öffentlichen Straßen getestet werden durfte. Das Konzept der Smart City – also der intelligenten, vernetzten Stadt der Zukunft – fand ebenfalls gerade erst ernsthafte Beachtung und entsprechende Investitionen. Der Songdo International Business District in Südkorea startete seine Smart-City-Initiative im Jahr 2008 und gilt als eines der ersten Smart-City-Projekte der Welt.
Zur gleichen Zeit maßen im Jahr 2010 viele Unternehmen ihr Datenaufkommen und ihre Speicherkapazitäten noch in Terabyte, also eine Größenordnung kleiner als heute. Vor allem aber war künstliche Intelligenz (KI) damals noch eine Nischentechnologie, die außerhalb von Forschungslabors und frühen Automatisierungstools kaum in der Praxis zum Einsatz kam.

Ungebremste Datenströme
Heute sieht die Situation ganz anders aus. Die Zahl der selbstfahrenden Fahrzeuge geht bereits in die Millionen. Schätzungen zufolge wird sie sich bis 2030 weltweit auf 125 Millionen belaufen. Smart Citys gibt es mittlerweile auf jedem Kontinent. Allein in China gibt es inzwischen mehr als 500 intelligente Städte, die jeweils konstante Datenströme erzeugen, um von Verkehrssystemen bis hin zu öffentlichen Versorgungseinrichtungen alle Infrastrukturbereiche miteinander zu vernetzen.
Jeder einzelne dieser Trends trägt maßgeblich zum Wachstum des globalen Datenvolumens bei. Insbesondere das Volumen an unstrukturierten Daten ist seit 2010 exponentiell angestiegen und wird voraussichtlich weiter ungebremst zunehmen. Zu diesen unstrukturierten Daten gehören zum Beispiel Social-Media-Inhalte, E-Mail-Archive und Meeting-Aufzeichnungen wie Video und Audio, aber auch von Sensoren gesammelte Daten. Sie alle tragen erheblich zum Gesamtdatenvolumen bei: So handelt es sich in Unternehmen inzwischen bei rund 90 Prozent der Daten um unstrukturierte Daten. Und mit jedem neuen vernetzten Gerät, jeder neuen Videodatei und jeder Chatbot-Interaktion wachsen diese unstrukturierten Datenmengen weiter an.
Schauen wir uns die Fülle der täglich anfallenden unstrukturierten Daten in der Praxis an, so erzeugt ein selbstfahrendes Fahrzeug etwa vier bis fünf Terabyte an Lidar-, Kamera- und KI-Daten. Ein durchschnittliches Krankenhaus generiert über 137 Terabyte pro Tag – einschließlich MRT- und Röntgenaufnahmen, Testergebnissen und klinischen Aufzeichnungen. Am anderen Ende der Skala liegen die Smart Citys mit einer Größenordnung von Hunderten von Petabyte. Dabei werden allein von den Verkehrs-, Wetter- und Schadstoffsensoren eine Vielzahl von Daten erfasst und gespeichert.
Insgesamt ergibt sich in der vernetzten Welt also ein enormes Datenwachstum. Geht man rein hypothetisch von einer jährlichen Wachstumsrate von 30 Prozent aus, so werden die heute gespeicherten Daten von drei Pebibyte (PiB) in den nächsten zehn Jahren auf über 31 PiB anwachsen. Ein Pebibyte ist ein binäres Maß für die Rechen- und Speicherkapazität und ist über 12,5 Prozent größer als das bekanntere Petabyte. Doch egal wie man es dreht und wendet, diese Zahlen sprechen für sich.
Datenorchestrierung für unstrukturierte Daten
Erschwerend beim Datenmanagement kommt hinzu, dass ein Großteil der Daten heute weitgehend im Verborgenen bleibt. Die meisten Unternehmen haben nur einen sehr begrenzten Überblick über ihre Informationsbestände und können nicht mit Sicherheit sagen, wie viele Daten sie eigentlich haben, wo sich diese befinden oder inwieweit die Daten tatsächlich von Wert sind. Dies gilt insbesondere für unstrukturierte Daten, die oft verteilt über mehrere inkompatible Speicherplattformen, Cloud-Umgebungen und geografische Standorte vorliegen. Entsprechend müssen Entscheidungsträger häufig im Blindflug arbeiten, weil ihnen die nötigen Einblicke fehlen, um ihre Daten proaktiv zu verwalten.
Ein weiteres gravierendes Problem ist der in vielen Unternehmen vorherrschende Trugschluss, dass mehr Speicherplatz das beste Mittel zur Bewältigung des Datenwachstums ist. Lange Zeit bestand die Standardlösung bei wachsenden Datenmengen darin, einfach mehr Speicherkapazität zu erwerben. Doch angesichts des Tempos, in dem maschinell generierte Inhalte und GenAI-Workloads die Datenfluten vorantreiben, erweist sich diese Strategie als zunehmend unhaltbar. Denn die ständige Speichererweiterung treibt nicht nur die Kosten in die Höhe, sondern führt auch zu unnötiger Komplexität.
Um die Kontrolle über ihre Daten wiederzuerlangen, müssen Unternehmen von einem gerätezentrierten Ansatz auf eine nachhaltigere Strategie zur Orchestrierung unstrukturierter Daten umstellen. Anstelle einer reaktiven Speichererweiterung sollte diese Strategie ein intelligentes Datenmanagement, eine Überwachung des Lebenszyklus der Daten und richtliniengestützte Automatisierungen zur Datenverwaltung priorisieren.
Zentraler Aspekt dieses Prozesses ist die Qualität der Daten. Denn mit der zunehmenden Bedeutung von KI- und Datenanalyseinitiativen in Unternehmen wächst auch das Risiko eines „Garbage In, Garbage Out“-Szenarios, bei dem ein schlechter Dateninput für schlechte Ergebnisse sorgt. Unzureichend verwaltete, duplizierte oder irrelevante Daten können KI-generierte Erkenntnisse drastisch verfälschen und die Performance von KI-gestützten Lösungen beeinträchtigen. Deshalb braucht es einen strategischen Datenmanagement-Ansatz, mit dem sichergestellt ist, dass in geschäftskritischen Anwendungen nur Daten mit hoher Integrität und gesicherter Qualität zur Verwendung kommen. Ein solcher Ansatz reicht von der Archivierung oder dem Löschen nicht mehr benötigter und veralteter Dateien bis hin zur Überprüfung, dass die zum Trainieren von KI-Modellen verwendeten Daten auch wirklich genau, vollständig und ethisch einwandfrei sind. Bei guter Umsetzung wird damit nicht nur ein solides Fundament für die Compliance geschaffen, sondern auch ein Antriebsmotor für echte Wettbewerbsvorteile.
So wie wir 2010 nicht vorhersehen konnten, mit welchen Herausforderungen wir heute konfrontiert sind, wird auch im Jahr 2040 die Datenlandschaft nicht mehr mit der heutigen vergleichbar sein. Ging es in den vergangenen 15 Jahren darum, mit dem Datenwachstum Schritt zu halten, dann wird es in den kommenden 15 Jahren darum gehen, dieses Wachstum wertschöpfend zu nutzen.
Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.