Wissen in unstrukturierten Daten mit Enterprise Search erschließen

Kein qualifiziertes Personal für die Datenanalyse, mangelhafte Toolsets und fehlerhafte Annahmen – es gibt verschiedene Gründe, weshalb es Unternehmen schwerfällt, Wissen aus ihrem Datenbestand zu generieren. Dieser nämlich besteht zu einem beträchtlichen Teil aus unstrukturierten Daten. Was das heißt und wie Enterprise-Search-Lösungen bei ihrer Erschließung helfen.
Von   Alexandre Bilger   |  Co-CEO   |  Sinequa
20. März 2024

Data Warehouses aus bestehenden Datenbanken zu erstellen und die daraus resultierenden Daten für Analysen zu nutzen, ist seit langem gängige Praxis. Nur wird damit längst nicht der gesamte Datenbestand eines Unternehmens betrachtet und verstanden, sondern nur, was strukturiert vorliegt: Zahlen oder Text, die sich in vordefinierte Felder eines relationalen Datenbankmanagementsystems wie z.B. SQL Server einordnen lassen.

Strukturierte Daten sind einfach zu bearbeiten und zu durchsuchen. Allerdings machen sie nur ein Fünftel aller Daten in einem Unternehmen aus. Der weitaus größte Teil sind die unstrukturierten Daten, d.h. alle Informationen, die nicht nach einem Zeilen- und Spaltenschema angeordnet sind und in eine Datenbank passen: E-Mails, Mobile Messages und digitale Chatverläufe , PDFs, Office-Dokumente, Social-Media-Posts, Videos, Töne und Bilder. Sie zu ignorieren, beeinträchtigt empfindlich die Genauigkeit und die Wirkung des Datenanalyseprozesses.

Wo die wirklich relevanten Informationen stehen

Unstrukturierte Daten sind schwieriger zu erfassen, zu verarbeiten, zu durchsuchen und zu analysieren als ihre strukturierten Gegenstücke und dennoch darf man sie nicht außer Acht lassen. Aufgrund ihrer schieren Überzahl nicht, und vor allem, weil sich in ihnen wertvolle, nicht auf den ersten Blick erkennbare Werte verstecken. Ein Großteil dessen, was Vermarkter „Markenstimmung“ (brand sentiment) nennen, ist in unstrukturierten Daten verborgen.

Aus strukturierten Datensätzen in CRM-Systemen oder Verkaufsstatistiken kann man Probleme in der Kundenbindung herauslesen. Wenn Kunden weniger Nachbestellungen tätigen, könnte das ein Hinweis auf ein Problem mit der Markenstimmung sein. Viel besser aber lässt sich negative Markenstimmung noch aus einer Analyse von Social-Media-Beiträgen erkennen. Wenn neun von zehn Kommentaren Sätze wie „Dieses Produkt ist schrecklich“, ist sofortiges Handeln gefragt. Genau um solche Stimmungen zu erkennen, muss man in der Lage sein, unstrukturierte Daten zu analysieren.

Wie ein Unternehmen mit unstrukturierten Daten umgeht, hat wesentlichen Einfluss auf seine Datensicherheit und Compliance. Um diese zu erhöhen, müssen die Daten zunächst klassifiziert werden. Darunter versteht man ihre Identifizierung und anschließende Kennzeichnung anhand von Klassen wie „geistiges Eigentum“, „vertraulich“ oder „persönlich identifizierbare Informationen (PII)“. Datenklassifizierung ist die Basis, denn Daten lassen sich nicht effektiv schützen, wenn man nicht weiß, wo und was sie sind oder bedeuten.

Erst was klassifiziert ist, lässt sich angemessen schützen

Ein Unternehmen könnte zum Beispiel großen Wert auf den Schutz seiner Patente legen. Das hört sich einfach an, aber was, wenn Informationen, die die Patentanmeldungen unterstützen, über das gesamte Unternehmen verteilt sind? Dokumente, die in Dateilaufwerken und Cloud-Speichern schlummern, könnten reichhaltiges geistiges Eigentum wie technische Zeichnungen und Forschungsberichte enthalten. Sie dürfen nicht in fremde Hände fallen, sind aber durch die unstrukturierten Daten verwundbar. Um sie zu schützen, muss man die Daten analysieren und herausfinden, wo sich das geistige Eigentum verbirgt. Als solches muss man es dann klassifizieren, um es überhaupt angemessen schützen zu können.

Compliance stellt einen weiteren Anwendungsfall dar. Vorschriften wie HIPAA oder DSGVO, die auf den Schutz personenbezogener Daten abzielen, erfordern die Analyse unstrukturierter Daten. PII-Daten können zum Beispiel leicht in E-Mail-Nachrichten und den ggf. darin enthalten anhängen, wie z.B. PDF-Dokumenten, enthalten sein. Wer nicht weiß, dass diese Daten vorhanden sind, kann sie nicht gegen Datenverletzungen oder unbefugten Zugriff schützen und setzt sich demnach dem Risiko erheblicher finanzieller Strafen aus.

Natural Language Processing erkennt Nuancen

Unstrukturierte Daten lassen sich am besten finden und analysieren mit einer Enterprise Search-Lösung. Deren Crawler durchsuchen den Inhalt von digitalen Office-Dokumenten, PDFs, E-Mail-Servern und jeder anderen Quelle unstrukturierter Daten im Unternehmen. Während sie die Daten an die Search Engine zurückspielen, erstellt diese einen durchsuchbaren Index der unstrukturierten und strukturierten Daten. Anschließend kann sie mit integrierten Funktionen oder Tools von Drittanbietern Datenklassifikationen zu den unstrukturierten Daten hinzufügen, die sie indiziert hat.

Dabei hilft der Einsatz von Funktionen des Natural Language Processing (NLP), also der Fähigkeit eines Computerprogramms, menschliche Sprache so zu verstehen, wie sie gesprochen bzw. geschrieben wurde. Traditionell versteht eine Software einen Menschen am besten, wenn dieser eine möglichst präzise, eindeutige und strukturierte Sprache verwendet. In der Realität aber ist die menschliche Sprache oft eben nicht eindeutig und genau, sondern hängt von komplexen Variablen ab (sozialer Kontext, regionale Spezifika…). Zum Einsatz kommen NLP-Technologien bevorzugt im Bereich des Enterprise Search, also der organisierten Suche in strukturierten und unstrukturierten Daten innerhalb einer Organisation.

NLP geht über bloße Sprachidentifikation, Worttrennung und Text-Extraktion, wie sie viele Suchmaschinen heute bieten, weit hinaus. Zu den NLP-Aufgaben innerhalb von Software-Programmen gehören zum einen Techniken wie Satzsegmentierung und -analyse (Parsing), also das Aufteilen von Phrasen in verschiedene Teile, um Beziehungen und Bedeutung zu verstehen. Weitere Anwendungen sind Deep Analytics, Named Entity-Extraktion und Co-Referenzauflösung.

Im Rahmen linguistischer Analysen sollte eine Enterprise-Search-Lösung folgendes ermöglichen:

  • Eine automatische Extraktion von Begriffen und Navigation in begrifflich geordneten und nach Relevanz sortierten Informationen
  • Text-Mining mit Tagging einzelner Wörter
  • Erkennung semantischer Zusammenhänge (etwa bei gleichzeitigem Auftreten der Begriffe innerhalb eines Satzes) und
  • Eine Integration von „Unternehmens-Wissen“ in Form von Wörterbüchern, Taxonomien bzw. Ontologien

Mit solchen Funktionen lassen sich Daten aus beliebigen Textdaten extrahieren, ob Projektberichte, klinische Studien, Veröffentlichungen, Patentanmeldungen oder E-Mails. Solche Daten enthalten üblicherweise eine Fülle von Informationen, die nicht kodifiziert sind und sich nicht in bloßen Zahlen ausdrücken lassen. Die Resultate erhalten die Suchenden schnell und einfach innerhalb ihrer täglichen Arbeitsumgebung – ohne wissen zu müssen, wo sie genau herkommen und welches Format sie haben.

Fazit

Unstrukturierte Daten sind ein wichtiger Teil der Datenanalysestrategie eines Unternehmens. Sie sollten auch bei den Bemühungen um Datensicherheit und Compliance eine wichtige Rolle spielen, denn die Konsequenzen einer Nichtbeachtung können schwerwiegend sein. Moderne Enterprise-Search-Lösungen helfen dabei, unstrukturierte Daten zu entdecken, zu klassifizieren und zu analysieren. Sie sollten daher heute zur Standardausrüstung eines Unternehmens gehören.

Alexandre Bilger ist Präsident und Co-CEO des französischen Enterprise-Search-Spezialisten Sinequa. Als Absolvent zweier „Grandes Ecoles“ (École Polytechnique und École des Mines) begann er seine Laufbahn als Software-Architekt, ist seit 2006 bei Sinequa und seit 2010 Co-CEO des Unternehmens.

Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.

46565

share

Artikel teilen

Top Artikel

Ähnliche Artikel