Was tun, wenn die Datenanalyse zum Bottleneck wird?
Wie visuelle Workflows die Datenarbeit demokratisieren
Daten bilden heute die Grundlage für zahlreiche Geschäftsentscheidungen und Prozesse. Viele Unternehmen kämpfen jedoch damit, dass die Datenanalyse entweder zu lange dauert oder nicht die gewünschten Erkenntnisse liefert. Einer der Hauptgründe hierfür ist der Mangel an Ressourcen bzw. Personal, um die Daten zu aggregieren, zu bereinigen, zu transformieren und anschließend zu analysieren. Ein vielversprechender Ansatz hier sind visuelle Workflows, die Datenarbeit demokratisieren, und für alle Mitarbeitenden vereinfachen können.
Bisher nutzen viele Datenwissenschaftler und Datenanalysten Werkzeuge aus der Softwareentwicklung für die Datenarbeit und sind auf Kenntnisse in Programmiersprachen angewiesen. Etabliert hat sich dies, weil Datenwissenschaftler oft aus Bereichen wie Datentechnik (mit SQL-Kenntnissen), Informatik (mit Python-Kenntnissen) oder Mathematik bzw. Statistik (mit R-Kenntnissen) kamen. Heute werden Daten jedoch in fast allen Geschäftsbereichen bearbeitet und ausgewertet. Die Fachkräfte in der Finanzabteilung, dem Supply-Chain-Management oder der Marketingabteilung besitzen meist aber nicht die genannten Programmierkenntnisse.
Für Datenwissenschaftler sind folgende Faktoren entscheidend:
- Datenverständnis: die Eigenschaften, Qualität und Struktur der Daten zu erkennen.
- Feature-Engineering: Auswählen und Erstellen relevanter Features aus den Daten, um die Modellleistung zu verbessern.
- Modellauswahl: Auswahl der am besten geeigneten Algorithmen und Techniken für die jeweilige Problemstellung oder Aufgabe sowie die dazugehörigen Daten.
- Modellbewertung: Bewerten der Leistung der Modelle mithilfe geeigneter Metriken und Validierungstechniken.
- Interpretierbarkeit: Verstehen, wie das Modell funktioniert, und in der Lage sein, den Stakeholdern seine Vorhersagen zu erklären.
Daher stellt sich die Frage: Welche Kenntnisse sind für eine zeitgemäße Datenarbeit überhaupt notwendig –und ist das Arbeiten mit visuellen Workflows der zeitgemäßere Ansatz, um das Technik-Bottleneck bei der Datenarbeit zu beseitigen?
Argument 1: Methodik ist wichtiger als die Programmierung
In der Datenwissenschaft geht es darum, durch Datenzusammenfassungen oder Modelle Erkenntnisse aus Daten zu gewinnen. Dazu ist es wichtig zu verstehen, was mit den Daten in den verschiedenen Phasen eines Prozesses geschieht, der zu diesen Erkenntnissen und Modellen führt. Datenwissenschaftler müssen also verstehen, was eine Methode oder ein Algorithmus bewirkt, aber nicht unbedingt, wie diese technisch implementiert sind und welche Programmierungen jeweils zugrunde liegen. Wenn ein Datenwissenschaftler in einem Telekommunikationsunternehmen ein Modell zur Vorhersage der Kundenabwanderung erstellen soll, muss er ein geeignetes Modell für diese Analyse wählen. Das kann eine logistische Regression, ein Entscheidungsbaum, die Verwendung eines Random Forest-Algorithmus[i], oder die Festlegung eines Optimierungsziels für dieses Modell sein, um die beste Vorhersageleistung zu erzielen. Solche komplexen Entscheidungen erfordern ein erhebliches Verständnis über die zur Verfügung stehenden Methoden. Der Code, der einer bestimmten Modelltrainingsmethode zugrunde liegt, ist dazu jedoch weniger relevant.
Bei der Verwendung eines visuellen Workflow-Modells werden Abfolgen von Aktivitäten, Aufgaben oder Entscheidungen, die das Arbeiten mit Daten modellieren, durch konzeptionelle Darstellungen oder Diagramme abgebildet. Viele Low Code Tools erleichtern zwar die Nutzererfahrung eines virtuellen Workflows, unter der Benutzeroberfläche arbeitet jedoch eine Programmiersprache wie Python. Die Anwender können also Prozessknoten visuell per Drag & Drop verschieben, unter der Oberfläche erstellt diese Aktion jedoch automatisch Code. Das kann auch erfordern, dass die Nutzer den Code leicht verändern oder anpassen, um bestimmte Funktionalitäten zu gewährleisten. Bei einer Plattform wie KNIME hingegen ist der visuelle Workflow direkt das Programm. Das entsprechende Programm ist das Netzwerk, das Knoten verbindet. Programmiersprachen und Bibliotheken werden im Hintergrund aufgerufen, ohne dass der Nutzer die visuelle Oberfläche verlassen muss. Der Vorteil dabei ist, dass alles ohne Code erledigt werden kann und die Plattform nicht auf eine einzige Sprache oder Bibliothek angewiesen ist, um relevant zu bleiben.
Argument 2: Eine gemeinsame „Sprache“ für die Zusammenarbeit
Die Verwendung visueller Workflows erleichtert auch die Verständigung zwischen Daten- und Fachexperten. Eine Dateningenieurin muss somit bei der Zusammenarbeit nicht die Details ihres SQL-Codes mit einem KI-Ingenieur diskutieren, der Python verwendet, oder mit einer Visualisierungsexpertin, die JavaScript bevorzugt. Weil alle Beteiligten durch die visuellen Workflows sozusagen eine gemeinsame „Sprache“ sprechen, wird das Einbinden der Expertise verschiedener Spezialisten zum richtigen Zeitpunkt wesentlich einfacher und verbessert die Zusammenarbeit. Bei Bedarf können Experten, die programmieren können (und wollen), trotzdem eigenen Code hinzuzufügen – Programmieren ist aber nicht mehr die Voraussetzung.
Auch bei der Arbeit zwischen Datenwissenschaftlern und Fachabteilungen sind visuelle Workflows äußerst nützlich. Das Einbinden von Fachexpertise und frühzeitiges Feedback sind ein Schlüssel, um sicherzustellen, dass Data Science-Projekte nicht zu weit vom Kurs abkommen und letztendlich eine fehlerhafte Lösung liefern. Visuelle Workflows ermöglichen es, Data Science-Lösungen frühzeitig abzustimmen und zu korrigieren.
Für Verantwortliche aus den Bereichen Governance und Compliance bieten visuelle Workflows eine praktische Referenz, da sie eine visuelle Dokumentation darüber liefert, was mit potenziell sensiblen Daten geschieht. Sie zeigen außerdem alle umgesetzten Sicherheitsvorkehrungen auf. Damit liefern sie auch eine bessere Kontrolle darüber, wie und auf welche Daten bestimmte KI-Modelle zugreifen – eine sehr aktuelle Problematik, wenn es um den großflächigen Einsatz von KI in Unternehmen geht.
Argument 3: Datenarbeit sollte keine Programmierkenntnisse erfordern
Datenexperten stehen heute auch in der Verantwortung, zukünftige Arbeitskräfte darin zu schulen mit großen Datensätzen zu arbeiten, die in immer mehr Arbeitsbereichen anfallen. Das betrifft Fachkräfte aus den unterschiedlichsten Geschäftsbereichen – von Marketing über Supply-Chain-Management, HR-Analysten und sogar Experten für maschinelles Lernen, die regelmäßig komplexe analytische Workflows erstellen, ohne jemals das Programmieren lernen zu müssen.
Visuelle Workflows erleichtern Anfängern den Einstieg in Datenbearbeitung. Innerhalb weniger Stunden können sie ihren ersten echten Workflow erstellen, der Tabellen zusammenfasst, Daten aus einem Warehouse abruft oder sogar ein Machine Learning (ML) Modell erstellt. Gleichzeitig machen sich die Nutzer bei der Arbeit mit einem Tool vertraut, das auch für fortgeschrittene Data Science verwendet werden kann. Nachdem sie das visuelle Workflow-Modell verstanden haben, lernen sie leicht und selbstständig, mehr Knoten und die Funktionsweise der zugrunde liegenden Methoden zu verstehen. Somit können sie sich schrittweise neues Fachwissen aneignen und tiefer in das Feld der Datenwissenschaft eintauchen, ohne die visuelle Workflow-Umgebung verlassen oder sich Programmierkenntnisse aneignen zu müssen.
„Data Worker müssen verstehen, was ihre Tools bewirken – nicht, wie sie im Detail funktionieren. Wenn wir sie dazu zwingen, sich mit den technischen Feinheiten der Implementierung auseinanderzusetzen, riskieren wir, dass sie nur vertraute Tools nutzen, anstatt die besten Werkzeuge für ihre Aufgaben. Workflows sind der Weg, der alle Datenarbeiter zusammenbringt. Visuelle Workflows abstrahieren die Komplexität, vereinfachen die Datenarbeit und geben auch nicht-technischen Nutzern einfachen Zugang zu leistungsfähigen Analysen – damit jeder das Beste aus seinen Daten herausholen kann“.
[i] Als Random Forest bezeichnet man einen Algorithmus, der für Klassifizierungs- und Regressionsaufgaben genutzt wird. Er kombiniert Ergebnisse vieler verschiedener Entscheidungsbäume, um bestmögliche Entscheidungen zu treffen.
Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.