6 Key Challenges für erfolgreiche Data Science Projekte

bei

 / 15. April. 2021

Sorry, this entry is only available in German. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

Die objektive Welt der Daten kann manchmal mit sehr subjektiven Herausforderungen behaftet sein – im Rahmen neuer Data Science Projekte sehen sich Unternehmen daher oft mit einer Reihe an Hindernissen konfrontiert. Vor allem bei jungen Data Science Teams sind es oft dieselben Hürden, die drohen, Projekte noch vor dem Proof-of-Concept ins Stolpern zu bringen. Aber auch erfahrene Teams geraten teilweise an ihre Grenzen. Wenn Unternehmen aber die folgenden sechs Challenges meistern, ist der Weg zu einem erfolgreichen Data Science Projekt geebnet.

Challenge 1: Die richtigen Daten verwenden

Die erste Herausforderung begegnet Data Science Teams bereits zu Beginn des Projekts. So trivial sie scheint, so wichtig ist sie: Die Wahl der richtigen Daten. Gerade heutzutage stehen Unternehmen große Bestände an dynamischen Daten zur Verfügung, die in Echtzeit abgerufen werden können. Versuchen Teams aber, Geschäftsfragen mit statischen Daten zu beantworten, stoßen sie potenziell auf ein Problem, das nicht nur zeitraubend ist, sondern im schlimmsten Fall das gesamte Projekt unbrauchbar macht: Die Datenlage hat sich verändert. Eben diese Daten, die das Team in monatelanger Arbeit aufbereitet hat, auf deren Basis Modelle erstellt und Informationen verfeinert wurden, sind mittlerweile veraltet. Um das Projekt nun auf die neuen Daten anzupassen, können wieder Monate vergehen – um dann im schlimmsten Fall festzustellen, dass sich die Datenlage erneut geändert hat. Der Beginn eines Teufelskreises, der schlichtweg darauf basiert, dass statische Daten nicht dazu geeignet sind, sinnvolle Schlussfolgerungen zu ziehen.

Die Lösung dieses Dilemmas liegt in der Nutzung dynamischer Daten und einer guten Kommunikation innerhalb der beteiligten Teams. Damit Daten in Echtzeit und in der richtigen Qualität verfügbar sind, muss eine umfassende Lösung implementiert werden, die sowohl die Kommunikation als auch den Daten-Workflow fördert. Eine robuste Datenkonnektivität, webbasierter Zugriff und kollaborative Funktionen in einer gemeinsamen Plattform helfen, den Anforderungen an dynamische Daten gerecht zu werden. Um mit den Daten bestmöglich zu arbeiten sollte geklärt sein, wer die Daten intern anbietet und woher die Daten kommen: Aus einer API, einer Produktionsdatenbank, einem Data Warehouse? Auch Informationen dazu, wie oft die Daten aktualisiert werden, wie zuverlässig die Datenquelle ist und mit welchen Verzögerungen beim Erhalt oder nach Aktualisierung der Daten zu rechnen ist, helfen bei einer effizienten Arbeit mit den Daten.

Challenge 2: Wiederverwendbare Workflows etablieren

Wenn Data Science Teams Modelle in intransparenten Umgebungen, also z.B. lokal auf eigenen Rechnern, erstellen, führt das zwangsläufig zu Problemen. Einerseits müssen Lösungen ständig reproduziert werden, was Zeit und Geld kostet. Andererseits haben Mitarbeiter aus verschiedenen Bereichen dadurch keinen Überblick über die jeweiligen Projekte und Lösungen ihrer Kollegen. Im schlimmsten Fall führt das dazu, dass Teams in unterschiedlichen Projekten unwissentlich am selben Problem arbeiten. Nicht zuletzt deutet eine solche mangelnde Transparenz auch auf verbesserungsbedürftige Data Governance Praktiken hin: Sind Workflows nicht fest definiert, ist es ab einem gewissen Punkt nahezu unmöglich herauszufinden, wie Daten behandelt, transformiert und verwendet wurden. Diese Problematik verstärkt sich zusätzlich, wenn einzelne Mitarbeiter das Unternehmen verlassen und neue Mitarbeiter eingestellt werden.

Die Lösung dieser Challenge liegt in der Etablierung reproduzierbarer Workflows. Die Bewegung von Rohdaten durch die verschiedenen Prozesse wie Bereinigung, Anreicherung, Modellierung und letztendlich auch die Bereitstellung eines neuen Datensatzes müssen eindeutig festgelegt und nach Bedarf repliziert werden können. Außerdem sollten Teams die gewonnenen Erkenntnisse schon während der Produktion testen können, um so die Leistung der Workflows noch zu verstärken. Selbstverständlich spielt auch die Wahl der richtigen Technologie eine Rolle. Damit sie maximale Reproduzierbarkeit der Workflows garantiert, sollten folgenden vier Fragen beantwortet werden:

  1. Bevorzugt das Tool den Aufbau eines Workflows anstelle von statischen Auswertungen?
  2. Wäre der Workflow einfach genug zu erstellen, sodass Data Analysts ihn einfach verwenden und verstehen können?
  3. Ist das Tool durchdacht genug, damit Data Scientists es anstelle ihrer bisherigen Lösung verwenden würden?
  4. Deckt das Tool alle Aspekte der Bereitstellung eines Data Science Projekts ab?

Challenge 3: Transparent und umfassend zusammenarbeiten

Wie erfolgreich Data Science Projekte umgesetzt werden können, hängt auch von der Qualität der Kommunikation und Zusammenarbeit innerhalb des Unternehmens ab. In der Praxis sind es oft besonders die unterschiedlichen Blickwinkel und Erwartungshaltungen der beteiligten Teams, die eine effiziente Zusammenarbeit potenziell erschweren. Während die technischen Mitarbeiter sich in der Welt der Daten und Programmierung auskennen und eine möglichst effiziente Funktionalität als Ziel haben, blicken Teams in der Geschäftsführung mit anderen Augen auf das Projekt: Für sie zählen Umfang, Kosten und Nutzen des Projekts.

Obwohl alle Beteiligten also Profis auf ihrem Gebiet sind, bietet eine mangelnde Zusammenarbeit den Nährboden für Missverständnisse und Barrieren, die die Produktivität behindern. Das ist insbesondere der Fall, wenn andere Teams und jeweilige Experten nicht von Anfang an in Prozesse eingebunden sind. Hier können wichtige Insights fehlen und Missverständnisse nicht rechtzeitig behoben werden. Auch wenn alle Teams eingebunden sind, ist die richtige Art der Kommunikation ausschlaggebend. Eine reine Kommunikation per Mail – auch zum Austausch von Dateien – wird schnell unübersichtlich: Dateien können leichter verloren gehen und wichtige Stakeholder nicht einbezogen werden. Noch schlimmer ist allerdings eine potenzielle Nicht-Einhaltung von Data Governance Richtlinien, wie sie bei Mailverkehr häufig der Fall ist. Die Schlüsselbotschaft ist eindeutig: Findet die Kommunikation falsch oder in mangelndem Ausmaß statt, wird es Data Science Projekten zwangsläufig an Vollständigkeit oder Genauigkeit mangeln und die Wahrscheinlichkeit, dass eine beteiligte Partei unzufrieden ist, steigt.

Um ein wirklich datengesteuertes Unternehmen aufzubauen, müssen also sowohl technische als auch geschäftsorientierte Profile in Projekte einbezogen werden. Und zwar nicht nur in ihren jeweiligen Funktionen, sondern gemeinsam für die besten Ergebnisse. Das klappt, wenn technische Mitarbeiter auch ein Verständnis für Umfang, Kosten, Fristen, Datentypen oder erforderliche Visualisierungen haben. Umgekehrt müssen die Geschäftsprofile verstehen, woher die Daten kommen, ob sie reproduzierbar sind oder nicht, wie der Datenworkflow aussieht und wie häufig die Daten aktualisiert werden müssen.

Ein wichtiger Schritt zur effizienten Zusammenarbeit kann ein kollaboratives, workflow-orientiertes Tool sein, das allen Teammitgliedern zur Verfügung steht. So können unterschiedlichen Fähigkeiten, perfekt aufeinander abgestimmt, zum Erfolg eines Datenprojekts als Ganzes beitragen: Neulinge unter den Data Scientists können die Daten bereinigen und anreichern sowie grundlegende Modelle prototypisieren, während erfahrene Datenwissenschaftler die Modelle für verbesserte Ergebnisse modifizieren können und Business Analysts Erkenntnisse über die Relevanz des Modells auf der Grundlage der Projektanforderungen hinzufügen. Eine führende organisatorische Hand dient als Brücke zu den am Projekt beteiligten Geschäftsprofilen. In einer kollaborativen Echtzeitumgebung können kritische Daten jederzeit aktuell und Data Governance konform ausgetauscht werden. Gleichzeitig sind alle Benutzer in einer gemeinsamen Umgebung miteinander vernetzt und können darüber transparent und Data Governance konform kommunizieren sowie den aktuellen Stand aller Beteiligten jederzeit einsehen.

Challenge 4: Unterschiedliche Fähigkeiten koordinieren

Gerade wenn neue Data Science Projekte eingeführt oder das bestehende Data Science Team erweitert wird, wartet eine weitere Hürde auf Unternehmen. Denn oft treffen dann erfahrene Data Scientists auf jüngere Kollegen, die gerade frisch von der Hochschule kommen. Allen Vorteilen, die dieser Erfahrungsmix mit sich bringt, steht aber auch eine entscheidende Hürde gegenüber: Die Diskreptanz zwischen dem klassischen Wissen, das traditionell in der Data Science verwendet wird und den Fähigkeiten, die Data Scientists an Universitäten und Hochschulen lernen. Gerade die jüngeren Abschlüsse haben eine große Expertise in modernen Technologien wie R, Python oder Spark, während erfahrene Data Scientist oft noch mit Technologien für die statistische Analyse wie SAS oder SPSS aufgewachsen sind und ihre Fähigkeiten seitdem stetig ausgebaut haben. Das Endergebnis sind zwei Gruppen von Data Scientists, die unterschiedliche Generationen von Technologien repräsentieren und deren Fähigkeiten in perfekten Einklang gebracht werden müssen.

Damit das gelingt, stehen Unternehmen im Grunde drei Wege zur Auswahl – jeder davon mit eigenen Vor- und Nachteilen. Eine Möglichkeit ist es, alte Technologien aufzugeben und auf neue Technologien umzusteigen. Dabei liegt es auf der Hand, dass ein solcher Wechsel der Kernarchitektur sich auf bestehende Mitarbeiter und Projekte auswirkt: Die Umgewöhnung von lang etablierten Prozessen auf neue Technologien kann durchaus zu Frust oder verminderter Effizienz in den Projekten führen. Andererseits können neu eingestellte Data Scientists sich schnell eingewöhnen und mit wenig Ausfallzeit produktiv werden. Natürlich funktioniert dieser Ansatz auch andersherum: Ein zweiter Weg kann es sein, die alten Technologien und Prozesse beizubehalten und neue Mitarbeiter entsprechend auszubilden. Besonders wertvoll ist der Vorteil, dass die Produktivität des bestehenden Data Science Teams dabei nicht unterbrochen wird. Was im ersten Moment effizient erscheint, wird langfristig seine Schattenseiten zeigen. Durch die Arbeit mit alten Technologien stagniert die Lernkurve neuer Mitarbeiter früher oder später und mit der Zeit veralten das Wissen und die Fähigkeiten der Data Science Teams zusehends. Die Folge: Irgendwann ist das Unternehmen nicht mehr in der Lage, sich technologischen Innovationen anzupassen oder Top-Talente einzustellen. Für die Mehrheit aller Unternehmen eignet sich wohl der dritte Weg – ein hybrider Ansatz – am besten. Dabei werden alte Technologien beinbehalten, während neue parallel genutzt werden. Dieses Szenario gibt den etablierten Mitarbeitern die Freiheit, weiterhin mit alten Technologien zu arbeiten, während neue Mitarbeiter die neuen Technologien nutzen.

Challenge 5: Projektplanung richtig umsetzen

Gerade in der Anfangsphase neuer Data Science Projekte verbringen Teams viel Zeit damit, das zu lösende Problem zu diskutieren und sich eine Lösung dafür zu überlegen. Der Plan für die tatsächliche Operationalisierung der Lösung – also die Wirksamkeit des Modells auf reale Daten in Echtzeit – wird oft nur am Rande berücksichtigt. Ein großer Fehler, der sich auf eine verbesserungsfähig Projektplanung zurückführen lässt und Data Science Teams vor eine Vielzahl an Herausforderungen stellen kann. So kann es beispielsweise vorkommen, dass zu einem Projekt bereits ein Modell entwickelt wurde und sich bei der Implementierung herausstellt, dass die Produktionsumgebung nicht mit dem Technologie-Stack des Data Science Teams kompatibel ist. Dadurch verlängert sich das Projekt, es entsteht ein erhöhter Aufwand an Zeit und Kosten und das Data Science Team hat im schlimmsten Fall monatelang ins Leere gearbeitet – all das hätte mit einer ausgewogenen Projektplanung verhindert werden können.

Um solche Probleme zu vermeiden, sollten Data Science Projekte von der Übergabe bis zur Bereitstellung umfassend recherchiert werden. Es ist sicherzustellen, dass die entwickelnden Teams Zugriff auf die Produktionsumgebung haben oder diese zumindest replizieren können. Die Wichtigkeit des Zugriffs auf Echtzeitdaten wurde bereits eingangs erläutert, soll aber auch an dieser Stelle nochmals betont werden. Ähnliches gilt für einen etablierten Kommunikationskanal zwischen den beteiligten Teams und der Abteilung, die die Entwicklung der Lösung angefordert hat.

Challenge 6: Die richtigen Wachstumsprojekte identifizieren

Trotz einiger Wachstumsschmerzen wird früher oder später der Tag kommen, an dem Data Sciences Teams in Unternehmen ihre primären Herausforderungen überwinden und sich etablieren. Nachdem die ersten Projekte und Lösungen erfolgreich umgesetzt werden, muss besprochen werden, mit welchen Projekten es weiter geht. Dabei kommt häufig die Versuchung auf, sich auf unbekanntes Terrain zu begeben und eine umfassende Lösung zu entwickeln, die alle möglichen Bedürfnisse – sei es seitens des Kunden oder unternehmensintern – abdeckt. Ein durchaus vernünftiges Vorhaben, bei dem jedoch folgendes bedacht werden sollte: Ein Technologie-Ökosystem besteht immer aus vielen beweglichen Komponenten und Variablen, die alle an der Entwicklung von Lösungen beteiligt sind. Je komplexer das Vorhaben, umso kostspieliger und zeitintensiver ist die Entwicklung einer so umfassenden und komplexen Lösung – ganz abgesehen vom Pflegeaufwand in der Zukunft. Werden die Ressourcen in dieser Unternehmung falsch verteilt, kann letztlich sogar das Wachstumspotenzial von Data Science Teams gefährdet sein.

In jedem Fall sollten Data Science Teams mit ihren Projekten wachsen. Erst wenn kleinere Projekte erfolgreich durchgeführt wurden, kann man sich Schritt für Schritt größeren Herausforderungen widmen. Das bedeutet zwar ein sanfteres, aber auch erfolgreiches Wachstum. Werden große, umfassenden Initiativen angestrebt, sollten sich Unternehmen bewusst sein, welche Investitionen ihnen in diesem Fall bevorstehen. Mittel sollten dann eher in Anwendungen investiert werden, die wirkliche Wettbewerbsvorteile schaffen und weniger in solche, die technische Grundlagen bedienen. Derartige Lösungen existierten oftmals bereits und kosten Data Science Teams lediglich Zeit und Unternehmen damit Geld. Open Source – Anbieter können hier eine gute Alternative sein, um Kosten zu begrenzen, Zeit zu sparen und einzigartige Geschäftsanforderungen innerhalb eines Anbieter-Ökosystems zu lösen. Außerdem wächst bei solchen Lösungen der Community-Gedanke aktuell stark: Gegenseitige Unterstützung und Insights helfen, die Roadmap im Vornherein besser zu kennen und sich beim Projekt auf die Aspekte zu konzentrieren, die wirklich benötigt werden.

Der Schlüssel zum Erfolg: Funktionierende Data Science Teams

Data Science Teams sind komplexe und nuancierte Organisationen mit verschiedenen Arten von Menschen, die unterschiedliche Tools verwenden, aber alle auf das gleiche Endziel hinarbeiten: Erfolgreiche Data Science Projekte. Wenn die Zusammenarbeit nicht richtig funktioniert, leidet das Endziel und Data Science Projekte werden vielleicht nie zu Ende geführt, sind ineffizient oder ineffektiv. Unternehmen sollten deshalb immer wieder Ihren Status Quo hinterfragen, mit verschiedenen Teams sprechen und eine Kultur der gegenseitigen Einbeziehung und transparenter Kommunikation fördern.

 

Über den Autor / die Autorin:


Gregory Herbert ist Senior Vice-Président für EMEA bei der Enterprise AI-Plattform Dataiku. Seine langjährige Erfahrung im Management von digitalen Transformationsprozessen für internationale Organisationen nutzt er heute, um Kunden beim Wachstum rund um Daten zu unterstützen.