Erfolgreiches Machine Learning dank Datenkonsistenz

bei

 / 16. June. 2020

Sorry, this entry is only available in German. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

Immer öfter hören wir in diesen Tagen den Begriff Machine Learning, zumeist im Kontext mit künstlicher Intelligenz. Aber wie sollen Maschinen lernen können? Als Machine Learning bezeichnet man einen Prozess, bei dem IT-Systeme in die Lage versetzt werden auf Basis vorhandener Datenbestände und Algorithmen, Gesetzmäßigkeiten zu erkennen und Lösungen zu entwickeln. Je öfter dieser Prozess abläuft und je mehr Daten als Grundlage dienen, umso besser werden die von der Maschine vorgeschlagenen Lösungen. Die Maschine lernt! 

Je besser die Qualität der Daten, umso zuverlässiger das Lernen

Weil die Datenqualität die wichtigste Komponente des Prozesses ist, empfiehlt es sich, im Vorfeld eines Machine Learning Projekts festzulegen, welche Resultate bzw. Ergebnisse man erwartet. Von dieser Erwartung hängt ab, welche Daten und in welcher Form sie benötigt werden, um den erforderlichen Machine Learning Prozess aufzusetzen. Zum Hintergrund: Es gibt durchaus Prozesse, die mit wenigen Daten auskommen und trotzdem valide Ergebnisse hervorbringen.

Wie ein solcher Ablauf aussehen kann, lässt sich gut an der Funktionsweise eines Kühltransporters visualisieren. Bei einem Kühlwagen beispielsweise erkennt das System anhand der Sensorwerte, welche Temperatur im Inneren des Transporters herrscht. Auch kleinste Temperaturschwankungen lassen sich so erkennen. Die Herausforderung im Fall des Kühltransporters ist aber die Konvertierung der Sensordaten zu Daten, die der Rechner verarbeiten und auswerten kann. Dabei ist die Datenqualität zwar wichtig, die Datenmenge aber eher sekundär.

Ganz anders verhält es sich dagegen bei einer Plastikgussmaschine, etwa einer solchen, die aus flüssigem Kunststoff Spielzeugautos herstellt. Hier wird der Prozess nicht mit Sensoren, sondern mittels Ultraschall überprüft. Bei diesem Vorgang kommen bereits innerhalb kürzester Zeitfenster große Datenmengen zusammen. Die vom Ultraschallgerät erfassten Daten müssen dann so aufbereitet werden, dass sie automatisch verarbeitet werden können. Nur dann kann der Algorithmus erkennen, in welchem Fertigungszustand sich das Spielfahrzeug befindet. Wichtig ist, dass dabei regelbasiert vorgegangen wird, denn nur so lassen sich Korrelationen oder Anomalien aufdecken. In diesem Fall hat vor allem die Datenquantität Auswirkungen auf das Ergebnis:  die vielen Einzelwerte des Ultraschallgeräts helfen, dass der Algorithmus des Rechners bereits kleinste Abweichungen sofort erkennt.

Aber es gibt auch noch weitaus heiklere Beispiele – etwa, wenn es um die Bilderkennung geht. Das ist sicherlich kein Problem, wenn es die Gesichtserkennung bei der Laptopkamera betrifft. Soll aber eine Ultraschall-Aufnahme analysiert werden, um eine zuverlässige Brustkrebsvorsorge betreiben zu können, ist maximale Validität gefragt. Umso wichtiger ist die Datenqualität, damit das System zuverlässig und bestmöglich lernt.

Aus Big Data werden Smarte Daten

Beim Machine Learning, geht es darum, heterogene Datenformate und -bestände zu konsolidieren. Mittels Algorithmen werden sie aus der Datenmenge extrahiert, damit sie zu smarten Informationen werden, aus denen sich Schlussfolgerungen ziehen lassen. Die Datenkonsolidierung hat neben der Auswertbarkeit einen weiteren Vorteil: Da man von einer großen Datenmenge ausgeht, fällt eine kleine Anzahl an Fehlern nicht so heftig ins Gewicht. Anders ist das hingegen bei einer geringen Datenmenge, denn hier haben Fehler gravierende Folgen. Dennoch spielt für den Konsolidierungsprozess eine grundsätzliche Datenkonsistenz eine zentrale Rolle, denn nur wenn die Datenbasis eine gute Qualität aufweist, können die Algorithmen gute Ergebnisse erzielen.

Wie aber lässt sich Datenkonsistenz erzeugen und was ist dabei zu beachten?

  1. Datenerfassung

Um die Daten zu erfassen, gibt es unterschiedliche Szenarien. In einigen Fällen kann man mit bereits vorhandenen Signalen arbeiten oder aber es müssen Maschinen mit entsprechenden Sensoren ausgestattet werden. Vielfach ist es sogar möglich, Daten aus der Maschinensteuerung zu gewinnen und über Schnittstellen direkt in ein IoT-Gateway zu schreiben.

  1. Dateninterpretation

Nach der Datengewinnung geht es darum zu verstehen, welche verschiedenen Werte, Angaben oder Daten für was stehen. Nur wenn man weiß, dass ein Sensorwert für eine bestimmte Temperatur steht, lässt sich der einzelne Wert einordnen. Was beim genannten Temperaturbeispiel einfach zu sein scheint, ist bei anderen Aufgabenstellungen durchaus komplexer. Die Dateninterpretation ist aber sehr wichtig, denn sie ist die Grundlage für die Algorithmen, die dann wiederum Basis für das Machine Learning sind.

  1. Datenaufbereitung

Schließlich müssen die Daten aufbereitet und aggregiert werden, damit die verschiedenen Werte einer oder mehrerer Maschinen konsistent und einheitlich sind. Für diesen Konsolidierungsprozess gibt es bereits Lösungen und Plattformen die Datenformate entsprechend für das Zielsystem umwandeln und auf Basis von Regeln interpretieren.

  1. Datentransport und -analyse

Schlussendlich bereitet ein IoT Hub die Daten so auf, dass verschiedene Auswertungen möglich sind. Der IoT Hub dient zudem als „Transporteur“, der die Daten z.B. in ein vorhandenes ERP- oder MES-System zu überspielt.

Wenn all diese Aspekte umgesetzt sind, kommt ein weiterer Punkt hinzu: die Datensouveränität. Damit ist gemeint, dass die Unternehmen sehr gewissenhaft dafür sorgen müssen, dass sie Herr ihrer eigenen Daten bleiben. In diesem Kontext geht es nicht nur um Fragen der Datensicherheit, sondern auch der Speicherort spielt eine wichtige Rolle. Die Verantwortlichen müssen dafür sorgen, dass Daten und Anwendungen deutscher Nutzer nicht zwangsläufig auf Servern in den USA landen. Sie müssen auch die Chance haben ihre Daten – gemäß der europäischen Datenschutzgrundverordnung – in Deutschland bzw. Europa zu speichern.

Machine Learning – und was dann?

Doch das Speichern von Daten im Ursprungsland, also in Deutschland, nur ein Trend. Schon heute ist erkennbar, dass die Nutzung von Algorithmen immer populärer wird. Es wird nicht allein bei Machine Learning bleiben, sondern es werden sich weitere KI-Formen entwickeln. Auch wenn die IT-Systeme heute schon mit jedem einzelnen Sonderfalle „lernen“ sich selbst zu perfektionieren, so dass Prozesse sukzessiv automatisiert werden können. Die Datenqualität und -konsistenz sind dabei zentrale Voraussetzung, insbesondere vor dem Hintergrund, dass sogenannte „schlechte Daten“ nicht ohne weiteres aus einem Machine Learning Prozess wieder herausgenommen werden können. Der Grund: Machine Learning baut konsequent und konsistent aufeinander auf. Werden dem System Daten entzogen, die bisher Teil der Berechnung waren, könnte der gesamte Prozesse wie ein Kartenhaus in sich zusammenfallen. Ergo sind die Datenqualität und -konsistenz das A und O der Digitalisierung und sollten deshalb nicht stiefmütterlich behandelt, sondern besser in den Mittelpunkt der Entwicklung gestellt werden.

 

 

Lumir Boureanu ist Geschäftsführer der Compacer GmbH. Seit Jahren beschäftigt er sich mit Themen wie digitale Ecosysteme, Künstliche Intelligenz und Machine Learning. Boureanu gilt zudem als Experte für Smart Services.