Der 25. Mai 2018 gilt als besonderer Tag für Unternehmen und ihre Datenanalysen, denn an diesem Tag wurden die Compliance-Regeln beim Datenschutz verschärft. Das Europäische Parlament hat dazu die Datenschutzgrundverordnung (DSGVO) erlassen, die seit jenem Tag verbindlich in allen EU-Mitgliedsländern gilt. Sie sieht unter anderem eine Erhöhung der Bußgelder auf bis zu 20 Millionen Euro bzw. bis zu vier Prozent des weltweiten Konzernvorjahresumsatzes vor. Um auf die neuen Vorgaben zu reagieren und daraus resultierende Risiken zu minimieren, müssen sich Unternehmen auf wirksame Systeme verlassen können. Doch die Menge an Daten, deren teilweise unklare Herkunft sowie die Komplexität der Datenstruktur führen zu einem Spannungsfeld zwischen datengetriebenen Anwendungen und der Umsetzung der DSGVO-Vorschriften.
Ein Großteil der Publikationen zur DSGVO konzentriert sich darauf, wie sich die neuen Regeln auf die Erfassung und Verwaltung personenbezogener Daten in Unternehmen auswirken. Gleichwohl ändert die DSGVO auch die Art und Weise, wie Unternehmen mit ihren Data Science Teams aus Daten ihre Erkenntnisse gewinnen werden. In diesem Kontext stellt dieser Artikel zwei Verfahren vor – Datenlöschungen und Analyse von personenbezogenen Daten – die zeigen, wie die aufstrebende Disziplin der Data Science sich im Spannungsfeld zwischen werthaltigen Analysen und Datenschutz nachhaltig aufstellen kann.
Das „Recht auf Vergessen“ in unstrukturierten Daten
Eine besondere Herausforderung für viele Unternehmen stellt das „Recht auf Vergessen“ gemäß Artikel 17 der DSGVO dar. Demnach hat die betroffene Person das Recht, dass ihre personenbezogenen Daten nach hinreichender Begründung auf Anforderung gelöscht werden.
In einer idealen Welt sind die Datensätze, welche mit einer Person verbunden sind, in einem Datenschema klar strukturiert nachvollziehbar. In diesem Fall kann man folglich die Daten relativ leicht auswählen. Auswirkungen auf die interne oder externe Berichterstattung durch Inkonsistenzen oder Unvollständigkeiten müssen auch bei der Löschung von Datenattributen vermieden werden. In diesem Kontext stellt sich daher die Frage, wie man Daten korrekterweise entfernen sollte. Um die referenzielle Integrität nicht zu verletzen, wird in der Praxis nur der Personenbezug entfernt und durch eine entsprechende Dummy-Variable ersetzt.
Anspruchsvoller hingegen gestaltet sich die Suche in unstrukturierten Daten, insbesondere wenn diese über verschiedene Datenquellen und Organisationseinheiten hinweg verteilt sind. Beispielsweise werden Kundendaten im Vertrieb erhoben, dann in der Auftragsfertigung und letztlich im Service verarbeitet oder neu erzeugt. Hier liegen dann womöglich Verträge, CRM-Daten, E-Mails, Briefe, etc. in unterschiedlichen Systemen.
Eine Zuordnung der Datensätze zu einem bestimmten Kunden ist teilweise nicht über eine exakte Suche möglich, da eine eindeutige Referenz nicht immer vorliegt – beispielweise, wenn zu einem Kunden mehrere Emailadressen bzw. nicht alle (historischen) Adressen eindeutig im CRM-System hinterlegt sind. Der Komplexitätsgrad erhöht sich zusätzlich um ein Vielfaches, wenn noch verschiedene Schreibweisen, eine unterschiedliche Anzahl an Vornamen, der Wechsel der Nachnamen über die Lebenszeit oder – bei Firmenkunden – Umfirmierungen auftreten.
Jede „Suche“ nach personenbezogenen Daten birgt daher das Risiko, dass die Treffermenge nicht vollständig ist und somit nicht alle Daten vollständig identifiziert wurden. Idealerweise integriert man daher die Zuordnung von Inhalten zu Personen über einen eindeutigen Identifier in bestehende Prozesse und Systeme bzw. führt bestenfalls eine Anreicherung der bestehenden Daten durch. Es gibt hier unterschiedliche Lösungsstrategien, beispielsweise die Verknüpfung von personenbezogenen und personenbeziehbaren Daten, Triangulierung von Daten aus verschiedenen Quellen bis hin zur Auflösung von Handschriften oder Unterschriften zur exakten Zuordnung zu Personen.
Insbesondere bei unscharfen Suchen gilt grundsätzlich hier eine Balance zwischen Genauigkeit und Wirtschaftlichkeit zu bewahren. Moderne Data Science-Methoden können vor allem in der Aufarbeitung der Daten einen hohen Mehrwert liefern. Zwar entsteht hier ein einmaliges Investment, welches sich aber später durch effizientere Prozesse und bessere Qualität der Prozesse letztlich doch auszahlt.
Durch ausgefeilte Anonymisierungsverfahren stichhaltige Analysen beibehalten
Darüber hinaus beeinflusst die DSGVO die Anwendung von Data Science dahingehend, als dass sie für die Erstellung von Kundenprofilen Grenzen setzt. Gleichzeitig haben Unternehmen auf der einen Seite hohe Anforderungen, ihre Kunden besser verstehen zu wollen und immer individueller zugeschnittene Produkte und Dienstleistungen anbieten zu können. Ein Beispiel wäre ein Onlineshop, der Produkte vorschlägt oder bei der Produktsuche besonders passende Produkte – etwa weil sie zum Geschmack oder Budget des Kunden passen – mit einem höheren Ranking darstellt.
Auf der anderen Seite sind personenbezogene Daten grundsätzlich zu pseudonymisieren bzw. zu anonymisieren. Einzelne Angaben dürfen nicht mehr oder nur mit „mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können“. Da der Schutzbedarf der Daten von vielen Faktoren abhängt – etwa von der Sensibilität der Daten und der Menge der unterschiedlichen Betroffenen – muss man die Anonymisierungsverfahren mit sehr viel Sorgfalt auswählen.
Wichtig ist, dass man die Anonymisierung nicht erst in der Data Science Workbench umsetzt, sondern eine klare Funktionstrennung etabliert, so dass die Datenlieferanten bzw. Eigentümer im Unternehmen nur Daten ohne erkennbaren Personenbezug zu Analysezwecken herausgeben. Hierzu kann man beispielsweise Datenverdichtungen anwenden, so dass mindestens immer zwei Datensätze in eine Gruppe verdichtet werden, um keinen direkten Personenbezog mehr herzustellen.
Alternativ lassen sich Daten synthetisieren, d.h. man vertauscht oder verändert die individuellen Merkmale derart, dass dies nur geringen Einfluss auf die Qualität der Modelle hat. Grundsätzlich lässt sich also feststellen, dass die Verarbeitung von personenbezogenen Daten mit der richtigen „Data Governance“ ein lösbares Problem ist. Es gilt nur, die richtigen Schutzmechanismen zu verwenden und sich von dem Gedanken zu lösen, Kundendaten zu Data Mining-Zwecken zu verwenden. Es geht letztlich immer um „Repräsentanten“ oder Mikrosegmente, die als Basis verwendet werden. In Folge wird ein besseres Kundenverständnis immer mit einer höheren Kundenloyalität belohnt und zahlt sich daher aus.
Fazit: Die Data Science im Spannungsfeld zwischen werthaltigen Erkenntnissen und Datenschutz als Business-Partner
Die DSGVO bringt einerseits eine drastische Verschärfung der Bußgelder mit sich. Sanktioniert wird dabei nicht nur der Datenschutzverstoß als solcher, sondern insbesondere das Fehlen DSGVO-konformer Prozesse und Maßnahmen. Gleichzeitig stehen Unternehmen vor der Herausforderung, durch die konsequente Auswertung ihrer produzierten und gesammelten Daten einen kundenindividuellen Service anzubieten und Trends rechtzeitig erkennen zu können.
Es gilt ein hoher Governance-Maßstab, der im Sinne eines Management-Systems zu konzipieren und zu implementieren ist. Die vorgestellten Methoden eröffnen den Weg für die Gestaltung eines Data Science-Ansatzes, der gleichzeitig den Anforderungen des modernen Datenschutzmanagements erfüllt. Unabhängig von der Branche gilt für alle Unternehmen: Sie müssen ihre bisherigen Zuständigkeiten, Prozesse und Maßnahmen neu bewerten und die Elemente der DSGVO als Leitplanke für die Umsetzung von Data Science Anwendungen integrieren. Da die Data Science selbst bei der Modellierung und Umsetzung der Verfahren durch ihr technisches Know-how zum Einsatz kommen wird, sollte die DSGVO aus Data Science-Sicht weniger als Beschränkung und mehr als Akzelerator betrachten werden. Schließlich kann sich dadurch der Stellenwert der Disziplin zusätzlich steigern und ein größeres Vertrauen für die Analyse von Daten schaffen lassen.
Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.