Automatische Textanalyse durch Methoden der künstlichen Intelligenz

bei

 / 12. September. 2018

Sorry, this entry is only available in German. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

Mit der fortschreitenden Digitalisierung wachsen die Datenberge von Unternehmen rasch an. Ein Großteil der wertvollen Informationen liegt jedoch bisher ungenutzt in Form von Texten, Dokumenten und E-Mails vor. Durch zahlreiche Innovationen im Bereich “Natural Language Processing” (NLP) können diese Informationen nun in neuem Maße ausgewertet werden. Dies führt in vielen Industrien zu einem unmittelbaren Informations- und Wettbewerbsvorteil. Ein zentraler Baustein im NLP ist das Erkennen von semantischen Konzepten in Texten – die sogenannte “Named Entity Recognition”. 

Unternehmen produzieren kontinuierlich Text-Daten wie E-Mails, Arbeitsprotokolle, Handbücher, Patente u.v.m. Text-Daten kommen aus unterschiedlichen Quellen, werden von verschiedenen Autoren in verschiedenen Sprachen verfasst und sind häufig mit Rechtschreibfehlern behaftet. Um diese Daten in sogenannten Data Lakes zu sichern, werden von Unternehmen große Anstrengungen unternommen. Die Organisation dieser Daten ist oft schwierig und zeitaufwendig, doch automatische Textanalyse macht das möglich.

Für das Finden relevanter Inhalte in komplexen Textsammlungen sind neue Konzepte der Dokumentensuche notwendig. Gängige Verfahren, wie die Suche nach bestimmten Begriffen, also das genaue Abgleichen von Buchstabenfolgen, erweisen sich in Zeiten von Big Data als ineffizient. Das manuelle Prüfen und Klassifizieren von Texten durch Menschen ist wiederum wirtschaftlich kaum finanzierbar. Für Unternehmen ist es dennoch extrem wichtig, sämtliche ihnen verfügbare Daten in ihre Entscheidungen einbeziehen zu können. So würde man im Zuge einer Due Diligence einen mehrere Gigabyte umfassenden Data Room idealerweise vollständig prüfen, anstatt lediglich eine Stichprobe an Dokumenten zu wählen. Auch bei der Erforschung neuer Medikamente könnte man die gesamten 26 Millionen existierenden Publikationen der Medline Datenbank analysieren. Dank moderner Techniken wie Named Entity Recognition können großen Datenmengen analysiert werden.

Named Entity Recognition: automatische und intelligente Erkennung von Konzepten

In der Wissenschaft ist die automatische Erkennung von Konzepten unter dem Begriff Named Entity Recognition (NER) bekannt. Es können generelle Konzepte wie Personen, Orte und Organisationen erkannt werden, aber auch spezifische Begriffe wie Chemikalien oder Kryptowährungen.

Abbildung 1: Unterschied zwischen regelbasierter Zeichensuche (links) und intelligenter Erkennung von Entitäten (rechts). Im Beispiel links findet das System die Zeichenfolge “UC Berkeley” nicht, da sie so im Text nicht vorkommt. Im Beispiel rechts erkennt das System den Textabschnitt “University of California, Berkeley” als eine Organisation. Durch Ähnlichkeitsmaße kann diese Organisation zur Universität UC Berkeley verlinkt werden.
Desweiteren kann ein regelbasiertes System zwischen der Firma oder der Frucht “Apple” nicht unterscheiden.

Die Geschichte der Entwicklung von NER Systemen reicht zurück in die 90er Jahre, hat aber kürzlich, durch Anwendung tiefer neuronaler Netzwerke, enormen Auftrieb bekommen. So wurde die Genauigkeit der Systeme durch zwei grundlegende Verbesserungen erreicht: zum einen können neuronale Netzwerke ganze Sätze oder sogar ganze Dokumente in die Analyse mit einbeziehen – ältere Systeme waren hingegen stets auf wenige Worte beschränkt. Zum anderen ist die mathematische Darstellung einzelner Worte wesentlich fortgeschrittener als früher.

Diese Entwicklung lässt sich gut am Beispiel der Word-Embeddings (deutsch: Wort-Vektoren) erklären. Word-Embeddings sind die erlernte, mathematische Darstellung eines Wortes als Vektor mit semantischem Inhalt. Das bedeutet, zueinander ähnliche Worte haben auch zueinander ähnliche Wort-Vektoren. Zudem kann man auf diesen Wort-Vektoren arithmetische Berechnungen anstellen. Hierzu ein Beispiel:

xPilot – xMann + xFrau = xPilotin

Subtrahiert man “Mann” von “Pilot”, verbleibt im Grunde der Beruf ohne Bezug zu einem Geschlecht. Die Addition von “Frau” verbindet nun den Beruf wieder mit einem Geschlecht und führt zum Ergebnis “Pilotin”. Ein weiteres Beispiel:

xParis – xFrankreich + xDeutschland = xBerlin

Subtrahiert man “Frankreich” von “Paris”, verbleibt die Eigenschaft Hauptstadt. Die Addition von “Deutschland” resultiert dann in der deutschen Hauptstadt.

Diese simple Operation zeigen die Ausdruckskraft der erlernten Word-Embeddings. Nicht nur ähnliche Begriffe können in einem multidimensionalen Raum dargestellt und gefunden werden, sondern auch Konzepte und Relationen können abgebildet und durch grundlegende mathematische Operationen angesprochen werden.

Abbildung 2: Darstellung von Wort-Vektoren einer Textsammlung aus der Industrie. Jedes Wort enthält eine eigene Vektor-Repräsentation, also eine Koordinate, die die Position im Raum bestimmt. Wörter, die einem ähnlichen Kontext angehören, bilden daher Cluster im Raum. Die Nähe der Wörter zueinander erlaubt eine semantische Interpretation. Die Ergebnisse von Rechenoperationen mit den Wort-Vektoren erlauben ebenfalls eine semantische Interpretation, entsprechend der Domäne die im Raum repräsentiert wird (in diesem Falle handelt es sich um die Domäne “Werkzeugmaschinen”).

Weit verbreitet ist öffentlich zugängiger Programmcode für das Trainieren der Word-Embeddings. Dieser kann einerseits auf allgemeinen Textkorpora wie dem deutschen Wikipedia, aber auch auf domänen-spezifischen Korpora, wie Gesetzestexten angewandt werden. Gerade letzteres kann von entscheidendem Vorteil bei der Interpretation von Texten für spezifische Anwendungen sein. So benötigt z.B. eine Firma, die sich für Anwendungen im Bereich der Radartechnik interessiert, eine sprachlich sehr feine Unterscheidung bezüglich der eingesetzten Technologien und der Anwendungsgebiete, die mit dem Wort “Radar” in Beziehung stehen.

Modernes NER: Kontext-Verständnis mittels tiefer neuronaler Netzwerke

Word-Embeddings legen den Grundstein moderner NER Netzwerke. Worte werden zuerst in maschinen-lesbare Formate verwandelt. Das neuronale Netzwerk muss als nächstes die Sequenz von Wörtern verarbeiten. Nur so kann die Bedeutung eines ganzen Satzes oder Dokuments verstanden werden. Die hier übliche Methode nennt sich Long-Short Term Memory (LSTM). Ein LSTM verarbeitet Daten nicht sequentiell, also nacheinander mit verschiedenen Arbeitsschritten wie an einem Fließband, sondern in einer sich selbst speisenden Verarbeitungs-Schleife (Darstellung rechts). So kann sich das Netzwerk wichtige Aspekte aus vorherigem Input merken und in die Berechnungen zum aktuellen Zeitpunkt einfließen lassen. Wenn also in einem Text die Rede von Essen ist, wird ein auf LSTM basierendes NER-System dem Wort “Apple” nur eine geringe Wahrscheinlichkeit für das Konzept Firma zuweisen.

Abbildung 3: Neuronales Netz

Für sehr gängige Entitäten wie Namen oder Orte gibt es im Internet bereits trainierte Modelle, die sich mit geringem Aufwand für eigene Zwecke verwenden lassen. So kann man zum Beispiel leicht einen Text von allen Namen bereinigen, um ihn datenschutzkonform an externe Dienstleister zu geben. Für spezielle Anwendungsfälle muss allerdings Vorarbeit geleistet werden. Die größte Hürde ist es ausreichend Beispieltexte mit dazugehörigen Bezeichnungen (sogenannten Labels) zu finden oder zu erstellen. Die Erstellung dieser Beispieldaten kann  leicht selbst durchgeführt werden. Möglich machen es Open Source-Tools, die die Markierung von einzelnen Wörtern innerhalb von Texten und die Eingabe der dazugehörenden Bezeichnung erleichtern. Beispiele für solche Tools sind prodi.gy oder das brat annotation tool. Eine andere und besser skalierbare Lösung ist der Einsatz von externen Label-Diensten, die man auch als Crowdsourcing-Dienste bezeichnet.

Durch den leichten Zugang zu performanten Modellen sowie einer Vielzahl von Anwendungsspezifischen Daten können die Herausforderungen der Analyse von großen Text-Daten bewältigt werden. Auch viele kleinere Unternehmen können so nicht nur den Umgang mit Informationen verbessern, sondern vor allem auch den Geschäftserfolg beeinflussen. Sprache als natürlichster Weg des Informationsaustauschs und Text als Dokumentation von Sprache, sind in allen Branchen und Bereichen des alltäglichen Lebens wiederzufinden. Daher wird Named Entity Recognition nicht nur spezifische Probleme lösen können, sondern eröffnet das Potenzial, unseren Zugang zu Informationen in der Zukunft grundlegend zu revolutionieren.

Der Autor: Timo Möller ist Co-Founder von deepset.ai – einer Agentur spezialisiert auf Natural Language Processing. Er selbst hat mehrere NER Systeme implementiert. Zur Zeit leitet er ein Projekt zur automatisierten Anonymisierung von Kundendaten.

Previous articleForecasts: Jeder braucht sie, keiner kann sie skalieren.
Next articleWie Automatisierung Data Science verändert … und Data Scientists