Text Analytics: 10 Datenschätze, die Algorithmen heben können

bei

 / 24. May. 2018

Ob E-Mails, Online-Kommentare oder Vertragstexte – sehr viele Datenschätze und Informationen liegen auch heute noch lediglich in Form unstrukturierter Texte vor. Dies weckt bei vielen Unternehmen den Wunsch nach einer automatisierten Auswertung, wie sie bei strukturierten Informationen, beispielsweise in Data Warehouses, selbstverständlich ist.

Wem es gelingt, Text automatisiert zu analysieren, dem stehen viele Türen offen. Im Folgenden wird der Begriff Text Analytics erklärt und ein Überblick über 10 fachliche Anwendungsbeispiele gegeben, die aktuell besonders viel Anklang in der Wirtschaft finden.

Das Potenzial, Texte automatisiert zu verarbeiten, zu interpretieren und zu analysieren ist im Jahr 2018 riesig.

Folgende typische Szenarien aus dem Unternehmensalltag werden einigen bekannt vorkommen:

300 Kundenservice-Anfragen pro Tag, jede einzelne muss manuell kategorisiert werden. 70.000 Verträge ohne automatisiertes Ablagesystem. 1.000 Online-Reviews zum Produkt müssen für die Einkaufsverhandlung alle der Reihe nachgelesen werden. 30 Leserkommentare pro Minute in der eigenen Online Community und der Community Manager entdeckt die dringendsten eher per Zufall.

Fortgeschrittene Arten der Textanalyse helfen, bisher manuell durchgeführte, zeitaufwändige und fehlerbehaftete Prozesse der manuellen Massentextverarbeitung effizienter zu gestalten. Außerdem bieten sie jede Menge Potenzial, Kosten einzusparen, sich einen Wettbewerbsvorsprung durch neues Wissen zu erarbeiten – und die Nerven der eigenen Mitarbeiter zu schonen.

Was versteht man unter dem Begriff Text Analytics

Hinter dem Begriff Text Analytics, oft auch als Text Mining bezeichnet, versteht man die Verarbeitung unstrukturierter Daten mit Algorithmen. Dahinter verbirgt sich eine große Vielfalt an Methoden und Technologien. Immer geht es darum, relevante Informationen aus einer großen Menge von Textdokumenten abzuleiten. Grob lässt sich das in drei Bereiche aufteilen:

  1. Textstatistik: Worthäufigkeiten auswerten. – Aussagen über einzelne Dokumente sind ebenso möglich wie solche über Textmengen.
  2. Unüberwachtes Machine Learning: Strukturierung einer Textmenge. – Aussagen über Gesamtstruktur der Dokumentenmenge.
  3. Überwachtes Machine Learning: Training eines Algorithmus auf Kategorien und anschließende Kategorisierung der Dokumente. – Aussagen über einzelne Dokumente möglich wie auch über die Verteilung im gesamten Textarchiv.

Potenzial für das eigene Geschäft identifizieren

Der Einsatz von Text Analytics ist heute gut erprobt, um im Produktivbetrieb von Unternehmen eingesetzt zu werden. Dieser verbreitet sich insbesondere in letzter Zeit sehr stark dank konzeptioneller Fortschritte im Bereich der künstlichen Intelligenz, speziell beim Machine Learning, durch die allgemeine Verfügbarkeit von Texten mit hoher Qualität (z.B. Wikipedia) und hochoptimierter Open Source Algorithmen.

Früher war zum Beispiel die Bestimmung, in welcher Sprache ein Dokument geschrieben war, für Computer kaum lösbar. Heute ist das dank neuer Klassifikationsmethoden und umfangreich trainierter Modelle kein Problem mehr.

Abhängig von den Zielen sind passende Methoden zu wählen. So kann man die Sprache eines Dokuments mit Hilfe der Klassifikation herausfinden. Im Weiteren werden die einzelnen Bereiche der Text Analytics mit Beispielen belegt.

1. Textstatistik: Kurz & knapp

Methoden aus der Textstatistik arbeiten mit den einzelnen Worten in den Texten. Dadurch werden große Textmengen greifbar. So kann man sich schnell einen Überblick über große Textmengen verschaffen.

Beispielfragen, die mit Textstatistik beantwortet werden können

  • Welche Worte verwendet die Community häufig?
  • Welche Trends zeichnen sich ab?
  • Wie gut ist dieser Text lesbar (Lesbarkeitsindex)?
  • Welche Merkmale (z.B. Farben) befinden sich in den Produktbeschreibungen (Entity Extraction)?

2. Unüberwachtes Machine Learning: Kurz & knapp

Unüberwachte Machine Learning Verfahren strukturieren Textmengen selbständig und machen so Zusammenhänge und Muster sichtbar, die ein Mensch nur mit sehr hohem Aufwand oder gar nicht erkennen könnte. Außerdem kann durch sogenannte Feature Extraktion Wissen aus einzelnen Texten automatisiert extrahiert werden, z.B. semantische und syntaktische Zusammenhänge. Durch Dimensionality Reduction werden Besonderheiten der einzelnen Texte erkannt, indem der Algorithmus die gesamte Textmenge mit einbezieht und auszeichnende Unterschiede ermittelt.

Beispielfragen, die mit unüberwachtem Machine Learning beantwortet werden können

  • Was ist die organische Struktur meines Dokumentenarchivs?
  • Welche Worte fassen einzelne Texte im Kontext meines gesamten Archivs am besten zusammen (Dimensionality Reduction)?

3. Überwachtes Machine Learning: Kurz & knapp

Für das überwachte Lernen werden kategorisierte Texte benötigt, deren Klassifikationsschema man gerne auf neue Texte anwenden möchte. Man muss zu Beginn also selbst wissen, nach was man klassifizieren möchte. Oft muss man dafür ein sogenanntes Trainingsset zuerst manuell klassifizieren, das heißt jedem einzelnen Text wird händisch die passende Kategorie zugewiesen. Der Algorithmus lernt die Logik innerhalb dieses Trainingssets. Anschließend wendet er diese erlernte Logik auf neue Texte an. Neue Texte werden so in bekannte Kategorien automatisiert einsortiert.

Beispielfragen, die mit überwachtem Machine Learning beantwortet werden können

  • Beinhaltet diese Kundenemail eine Beschwerde?
  • In welcher Sprache wurde dieser Text verfasst?
  • Wieviel Aggressivität ist in diesem Kommentar enthalten?
  • In welche Ablage gehört dieses Dokument?

Bei Machine Learning muss auch die Organisation weiter lernen

Der volle Mehrwert von Innovationen wie Machine Learning entfaltet sich erst dann, wenn das lernende System verantwortungsvoll in der Organisation verankert wird: planvolle, schrittweise Implementierung, ein effektives Change Management und Weiterbildung sind hier entscheidend, um die Mitarbeiterinnen und Mitarbeiter zur Nutzung des neuen Systems zu befähigen sowie von allen Vorteilen des neuen Systems zu profitieren. Dazu müssen die Auswirkungen des Machine Learnings auf Belegschaft, Kunden, Zulieferer und die Organisation an sich betrachtet und mit den Unternehmenswerten in Einklang gebracht werden.

Zusammenfassung der Potenziale von Text Analytics

Text Analytics kann in fast jedem Unternehmen helfen, den täglichen Geschäftsbetrieb zu optimieren. Der manuelle Leseaufwand kann so verringert werden, unternehmensintern und -extern vorhandene Textfluten können erschlossen und als Quellen für eigene datenbasierte Unternehmensentscheidungen effizient genutzt werden. Das ist mittlerweile nicht mehr nur den großen Internetkonzernen wie Google, Facebook und Amazon vorbehalten, sondern kann schnell und effizient auch bei kleineren Unternehmen eingeführt werden.

Die hier erklärten 10 Beispielfragen sollen dazu inspirieren, mit Text Analytics zu beginnen. Denn eines ist klar: die kommerzielle Nutzung von Text Analytics steht noch am Anfang.

Es gilt jetzt zu starten, denn mit der Nutzung von Text Analytics für das eigene Unternehmen ist es wie mit der Digitalisierung generell: Wer darauf wartet, bis sie von selbst kommt, verpasst die Chance neue Geschäftsfelder zu entwickeln, Kundenzufriedenheit zu steigern, sich Kostenvorteile zu sichern und als Vorreiter der Konkurrenz einen Schritt voraus zu sein.

Die Autorin: Stephanie Fischer ist Mitgründerin der datanizing GmbH und Product Owner für Text Analytics Services. Sie hat langjährige Erfahrung mit Machine Learning, datengetriebener Innovation und Change Management. Sie hat einen Abschluss in Betriebswirtschaftslehre. Außerdem ist sie Mitglied der Plattform Lernende Systeme. Autorenbild: ©Melissa Bungartz

Vorheriger ArtikelSo wird Machine Learning in Unternehmen eingesetzt
Nächster ArtikelWofür brauchen wir das überhaupt?