Maschinelles Lernen für Normalsterbliche

Von   Rafael Zubairov   |  Senior Architect   |  DataArt
30. April 2018

Jeder Mensch steht täglich vor der Notwendigkeit, Entscheidungen zu treffen. In der Regel beruhen diese auf persönlichen Erfahrungen und Informationen aus unterschiedlichen Quellen. Die zur Lösung einer bestimmten Problemstellung benötigten Informationen passen für gewöhnlich ins Gehirn des jeweiligen Menschen; er strukturiert sie je nach Typ in geistigen Skizzen, in einer Kladde, einer Mind Map oder sonstigen Aufzeichnungen. In der Wirtschaft sieht das anders aus: Allein die schiere Menge der erforderlichen Daten sprengt oft die Speicherkapazität eines Unternehmens. Um clevere Entscheidungen im wirtschaftlichen Kontext zu treffen, müssen also zunächst ausreichend große Datenspeicher geschaffen werden. Die große Herausforderung bei der Datensammlung besteht darin, sich mit diversen internen und externen Datenquellen sowie -formaten auseinanderzusetzen. Erst nach dem Finden einer Struktur analysieren Anwender die Datenfülle.

Moderne Software als Hilfe

Vor Jahrzehnten basierte die automatisierte Entscheidungsfindung großer Unternehmen auf den ersten Computern mit einer einfachen Tabellenkalkulationssoftware, die bei der Datenanalyse half. Hochspezialisierte Software für spezielle Anforderungen in bestimmten Bereichen lieferte zwar bessere Ergebnisse bei höherer Geschwindigkeit, engte aber den Fokus der Anwendungsgebiete stark ein. Ein weiteres Problem stellte die unzureichende Verfügbarkeit geschulter Programmierer dar; neben guten Programmierkenntnissen brauchten die Profis zusätzlich ein ausgeprägtes Verständnis für das jeweilige Geschäftsfeld. Eine Kombination aus beiden Fähigkeiten zu finden, gestaltete sich lange Zeit als schwierig – bis heute. An ein komplettes Team aus Programmier-Experten, das diese Fähigkeiten bündelt und gleichzeitig effizient arbeitet, war schlichtweg nicht zu denken.

Heutzutage greifen Unternehmen zu Open Source, Closed Source und Cloud-basierten Softwareprodukten, die Analysierende bei ihren täglichen Aufgaben unterstützen. Diese Lösungen vereinen einfache Funktionen und moderne, intuitiv benutzbare Schnittstellen für Datenerfassung und Modellbildung. Folglich sehen sich mehr Mitarbeiter in der Lage, Hypothesen zu verifizieren und Modelle mittlerer Komplexität zu erstellen, ohne Softwareentwickler oder Programmierer hinzuziehen zu müssen. Der überwiegende Teil dieser Lösungen entstand in den letzten Jahren. Erst seitdem können Unternehmen ihre eigenen Daten mit Hilfe interner Ressourcen untersuchen. Dies schmälert jedoch nicht den Wert von IT-Abteilungen und externen Anbietern im Bereich der Datenanalyse und der Modellierung von Entwicklungsszenarien.

Sprudelnde Quellen

Mittlerweile nutzen viele Unternehmen eigene interne Systeme zur Datenerfassung und -verarbeitung. Die Daten fließen aus unterschiedlichen Quellen zusammen und werden in roher oder bereinigter Form gespeichert. Häufig reichen die bereinigten Daten allerdings nicht aus oder aber sie sind nicht ohne weiteres verfügbar. In manchen Fällen rechtfertigen Kurzfristigkeit oder eine große Bedeutung der Untersuchung sogar die Verwendung unbereinigter Rohdaten. Datenwissenschaftliche Systeme bieten für die Datenaufbereitung einfache Methoden zum Daten-Upload aus allen verfügbaren Quellen. Dabei spielt es keine Rolle, ob die Informationen aus einer Datenbank, einer nicht-relationalen Datenbank, einer Datei in einem gemeinsamen Laufwerk oder einer vorläufigen Datenverarbeitung stammen. Letzteres beschreibt eine Vielzahl von Prozessen wie beispielsweise das Ausfüllen von leeren Datenzeilen oder das Zusammenführen von Tabellen. Viele dieser Funktionalitäten finden stellen RapidMiner, H2O und DataRobot bereit.

Kriterien für Softwarelösungen

Datenerfassung und -bereinigung frisst mit einem Anteil von 80 Prozent am gesamten Datenanalyse-Prozess den Großteil der Gesamtzeit. Folgende Prozesse sind genauso wichtig, aber weniger zeitintensiv: Feature-Engineering, Modellauswahl und Feinabstimmung. Sie zeigen sich teilweise schon automatisiert. Die Machine-Learning-Plattform DataRobot oder Bibliothekssysteme von AutoML helfen zusätzlich bei der Datananalyse. Bei der Wahl des richtigen Dienstprogramms kommt neben Funktionalität auch der Umfang des Einsatzgebiets, Kompatibilität mit vorhandenen Softwarelösungen und der Zugriffsmöglichkeit auf verschiedene Datenebenen Bedeutung zu. Ein attraktive Benutzeroberfläche, die Fähigkeit zum Betrieb agiler Datenwissenschaft und der Austausch von Ergebnissen innerhalb des Teams zählen zu weiteren Auswahlfaktoren.

Programme wie die Data-Mining-Softwares zum Analysieren großer Datenbestände RapidMiner, WEKA oder H2O eignen sich beispielsweise sowohl in Cloud- als auch in lokalen Szenarien, während Lösungen wie DataRobot dafür eine andere Lizenzoption erfordern. Interaktive Notebooks wie Apache Zeppelin und Spark bieten zwar höhere Flexibilität, erfordern aber mehr Aufwand bei der Installation und Bereitstellung.

Mit den meisten Tools gestaltet sich die Erstellung maschineller Lern- und Datenmodelle relativ einfach. Beispielsweise bietet H2O eine interaktive Arbeitsmappe mit Erläuterungen zu jedem Modell, Ad-hoc-Vorschläge und eine ausführliche Dokumentation; jeden Schritt der Datenverarbeitung und Modellierung stellt die Lösung dar. RapidMiner hingegen visualisiert via Datenfluss-Graphen einzelne Schritte wie Datenverarbeitung und Modellberechnung als Boxen mit konfigurierbaren Eigenschaften relativ zur Aktion.

Spätestens mit diesen Tools greifen nicht mehr nur Datenwissenschaftler und Softwareentwickler auf maschinelles Lernen zu. Die heutzutage existierende Vielzahl von Werkzeugen macht die fortschrittliche Technologie auch Normalsterblichen zugänglich.

Rafael Zubairov hat sein Studium an der Saint Petersburg Institute of Fine Mechanics and Optics abgeschlossen und arbeitet seit über 10 Jahren bei DataArt. Der Senior Architect kümmert sich beim weltweit tätigen Technologieberatungsunternehmen um Projekte mit hoher Auslastung, großen Datenmengen und maschinellem Lernen.

Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.

21319

share

Artikel teilen

Top Artikel

Ähnliche Artikel