Natural Language Processing macht mehr aus einer Suchmaschine

Künstliche Intelligenz ist schon längst im Alltag angekommen. Siri und Alexa verstehen uns – Verfahren des Natural Language Processing machen es möglich. Doch bei Enterprise-Search-Lösungen spielt die natürliche Spracherkennung ihre Stärken erst richtig aus.
Von   Franz Kögl   |  Vorstand   |  IntraFind
23. Mai 2023

Alles, was mit dem Thema künstliche Intelligenz zu tun hat, erlebt eine nie dagewesene mediale Aufmerksamkeit. Tools wie ChatGPT oder DeepL sind hochfrequentiert und haben zumindest großes Potenzial, die Arbeitswelt in vielen Bereichen auf den Kopf zu stellen oder zu bereichern. Doch auch etablierte Technologien wie Suchmaschinen – insbesondere Enterprise-Search-Lösungen – setzen KI- und Machine-Learning-Verfahren ein, um bestmögliche Ergebnisse zu erzielen. Gerade in Zeiten des absoluten Informations-Overloads brauchen wir solche intelligenten Helfer, die gefiltert und gezielt die für uns wirklich notwendigen Dokumente und Dateien bereitstellen.

Was eine gute Suchmaschine ausmacht, ist die Fähigkeit, natürliche Sprache verarbeiten zu können und somit für jede Art von Suchanfragen passende Ergebnisse zu finden. Die Verarbeitung menschlicher Sprache durch einen Computer sorgt einerseits dafür, dass die Maschine den Nutzer und dessen Suchanfragen in natürlicher Sprache „versteht“. Andererseits ermöglicht das sogenannte Natural Language Processing (NLP) ihr aber auch, den Datensatz nach relevanten Informationen zu durchsuchen und kontextbasierte Ergebnisse zu liefern. Konkrete Anwendungsbeispiele sind das Auffinden benötigter Informationen aus Unternehmensdatenquellen, die Analyse großer Textmengen oder die Textklassifikation und Verschlagwortung von Dokumenten.

Natural Language Processing versieht Suchmaschinen mit Sprachkompetenz

So groß der Komfort und Nutzen für die Nutzer auch sein mag, die Technik unter der Haube ist extrem komplex. Das liegt unter anderem daran, dass natürliche Sprache sehr kompliziert ist und deren Analyse sich nicht ohne weiteres in Code gießen lässt. Daher besteht Natural Language Processing auch nicht aus einer einzigen Formel, sondern aus mehreren Teilbereichen und zahlreichen regelbasierten computerlinguistischen Verfahren und Machine-Learning-Prozessen, die teilweise aufeinander aufbauen oder sich ergänzen. Durch das Zerlegen von Suchanfragen in mehrere Schritte ist der Computer am Ende in der Lage, strukturierte Daten aus der natürlichen Sprache zu entnehmen und schließlich weiterzuverarbeiten.

In den letzten Jahren hat sich beim Natural Language Processing viel bewegt. Neue Verfahren und Herangehensweisen gesellen sich zu bewährten Methoden und Prozessen. Die Verarbeitung menschlicher Sprache findet nach heutigem Stand durch deren Kombination statt. Betrachten wir nun einige Aspekte von NLP genauer.

Vorverarbeitung: Schritt für Schritt zum Ziel

Bevor umfangreiche Analysen eines Textes oder einer Suchanfrage stattfinden, steht bei vielen Verfahren des Natural Language Processing zunächst einmal die Tokenisierung an. In diesem vorbereitenden Schritt teilt die Maschine Sätze oder Absätze in kleinere Einheiten auf, die Token genannt werden. Der Begriff Token ist in dem Zusammenhang variabel, denn dabei kann es sich um ein Wort, einen Wortteil oder gar nur ein Satzzeichen handeln. Die Tokenisierung erleichtert die inhaltliche Interpretation eines Textes durch spezifischere Verfahren in den nächsten Schritten. Doch schon dieser erste Prozess hat seine Tücken, denn eine Aufspaltung von Sätzen in Worte und Satzzeichen reicht nicht immer aus. Viele Texte enthalten beispielsweise Punkte als Indikator für eine Abkürzung, medizinische Texte enthalten viele Bindestriche oder Klammern für Teile von chemischen Formeln. Mittlerweile existieren zahlreiche Algorithmen, die teils in Kombination für die sinnvolle Tokenisierung eingesetzt werden. Bekannte Beispiele sind WordPiece oder das Unigram Language Model.

Wortanalyse: Des Pudels Kern ermitteln

Die Wortanalyse beginnt oftmals mit einem weiteren Verfahren, das Wörter aus Texten herausfiltert, die häufig vorkommen und damit keine relevanten Informationen für die Analyse beitragen. Diese Worte heißen Stoppwörter. Gemeint sind etwa Artikel, Konjunktionen oder Pronomen, also etwa „ich“, „der“ oder „nicht“. Gerade im Deutschen gibt es zudem viele Worte, die sich aus mehreren Begriffen zusammensetzen. Ein Beispiel für sogenannte Komposita ist etwa „Bundesumweltminister“. Da die Suchmaschine beim Suchbegriff „Bundesminister Umwelt“ zum Beispiel auch Informationen zum Bundesumweltminister liefern soll, benötigt sie Verfahren, die ihr bei einer sinnvollen Kompositazerlegung helfen.

Noch komplexer ist die Vorgehensweise beim sogenannten Stemming. Algorithmen entfernen in diesem Verfahren Zusätze zum Wortstamm, also etwa das „en“ bei „gehen“ (Suffix) oder das „be“ bei „begehen“ (Präfix). In Suchmaschinen sorgt diese Technik für bessere Treffer, denn ohne sie würde die Suche nach dem Wort Tische keine Ergebnisse für Tisch liefern. Ergänzend zum Stemming kommt beim Natural Language Processing die Lemmatisierung zum Einsatz. Der Algorithmus erhält bei diesem Verfahren Zugang zu Wortdatenbanken, in denen er verschiedene Wortformen findet. Nur so kann die Suchmaschine vom Begriff „besser“ auf den Wortstamm „gut“ schließen. Das letzte Puzzlestück für die Wortanalyse ist das „Part of Speech“-Tagging, das auch unter dem Begriff grammatikalisches Tagging bekannt ist. Mit Hilfe dieses Verfahrens bestimmt der Algorithmus die Wortart, was für viele Anwendungen des Natural Language Processing wichtig ist.

So wie ein Handwerker für das Drehen einer Schraube ein geeignetes Werkzeug braucht, bieten diese unterschiedlichen Verfahren Lösungen für bestimmte Teilprobleme des Natural Language Processing an. Das Entfernen der Stoppwörter ist beispielsweise keine gute Idee, wenn der Zweck der Analyse ist, eine Relation zu erfassen. Bei der Aussage „Eine Lautstärke von 89 Dezibel darf nicht überschritten werden“, die eine Anforderung an die maximale Lautstärke definiert, ist die Entfernung von Stoppwörtern sinnentstellend: „Lautstärke 89 Dezibel überschritten”. Welche „Werkzeuge“ anzuwenden sind, ist also abhängig von Aufgabe und Verfahren.

Dokumentanalyse: Auf den Kontext kommt es an

In den Bereich der Dokumentanalyse fallen vor allem Methoden, um den Inhalt von Dokumenten zu interpretieren. Ohne diese Verfahren der natürlichen Sprachverarbeitung kann die Suchmaschine keine „intelligente“ Auswahl relevanter Ergebnisse passend zur Suchanfrage bereitstellen. Eine grundlegende Idee ist in diesem Zusammenhang das Bag-of-Words-Modell, das sämtliche Worte in einem Dokument zählt und basierend auf deren Häufigkeit zum Beispiel die Klassifikation eines Textes erlaubt. Die Probleme dieses Modells sind offensichtlich, da die Reihenfolge der Wörter verloren geht und somit die transportierte Information eine verlustbehaftete Kompression erfährt. Das Bag-of-Words-Modell ist allerdings trotzdem sehr oft sehr sinnvoll, denn es ist besonders ressourcenschonend und performant. Auf ihm aufbauende, Machine-Learning-basierte Textklassifikationsverfahren können mit relativ wenig Aufwand auf eigene Datensätze und Themenbäume trainiert sowie effizient auf eine sehr große Anzahl von Dokumenten angewendet werden.

Bedeutung und Objekte: Den Sinn verstehen

Gerade im Geschäftskontext sind die meisten Dokumente voll von sogenannten Entitäten. Egal ob es sich dabei um Namen von Personen, Organisationen und Orten, bestimmte Daten und Mengenangaben oder ähnliches handelt: Für die Erkennung solcher Entitäten existieren regelbasierte und Machine-Learning-Verfahren. Auch der schlichte Abgleich mit Wörterbüchern ist möglich, stößt jedoch in vielen Fällen sehr schnell an Grenzen, etwa bei mehrdeutigen Begriffen: Fischer könnte eine Berufsbezeichnung sein oder eben ein Nachname.

Das Markieren von Wortarten nach dem „Part of Speech“-Tagging bildet die Grundlage für das sogenannte Parsing. Diese Methode erkennt die Beziehung von Worten innerhalb eines Satzes und enthüllt damit unter anderem Nominalphrasen. Sie haben gerade in Suchsystemen große Bedeutung, da Suchanfragen oft Nominalphrasen wie zum Beispiel „Verantwortlicher für Sharepoint“ oder „Onboarding von Mitarbeitern“ sind.

Mit sogenannten Embeddings berechnet eine KI mathematische Repräsentationen eines Textes aus dem Kontext heraus, in dem er verwendet wird. Dafür wandelt sie diese Texte in Vektoren reeller Zahlen um. Diese Repräsentationen kodieren sowohl Syntax (etwa Wortformen und Flexionen) als auch Semantik (die Bedeutung) oder sogar Stil (zum Beispiel „wie Shakespeare“ oder „wie ein Rapper“). Inhaltlich ähnliche Texte (Wörter, Sätze, Absätze) bekommen ähnliche Repräsentationen. Gerade die letzten Entwicklungen im NLP verwenden Neuronale Netze, die im Kern solche Repräsentationen berechnen. Herausfordernd ist bei diesen neueren Modellen, dass sie oft hohe Ansprüche an Hardwareressourcen haben. So verlangen manche von ihnen graphische Prozessoren (GPUs) mit großen Mengen dedizierten Speicherplatzes, die oft nicht in der Standardausstattung von Rechenzentren vorhanden sind.

NLP ist das Herz einer guten Enterprise-Search-Lösung

Die vorgestellten Verfahren und Modelle zeigen verschiedene Ansätze für die Verarbeitung natürlicher Sprache und haben einen sehr praktischen Nutzen, der bei Enterprise-Search-Lösungen zum Tragen kommt. Ihre Vielseitigkeit zeigt aber auch, dass es hier keine sogenannte Silver Bullet gibt, also die eine einfache, magisch erscheinende Lösung im Rahmen von Natural Language Processing.Der Schlüssel zum Erfolg ist eher eine kluge Kombination der verschiedenen Verfahren. Enterprise-Search-Systeme bieten für ihren praktischen Einsatz überhaupt erst die Grundlage, da sie den Zugriff auf die Daten in den verschiedenen Silos gewährleisten.

Denn der Fluch des digitalen Zeitalters ist, dass viele relevante Informationen in ihren Silos verloren gehen, da sie unstrukturiert auf Servern ihr Dasein fristen. Enterprise-Search-Lösungen in Verbindung mit der Verarbeitung natürlicher Sprache machen diese Daten endlich wieder zugänglich, und ermöglichen es Unternehmen, den Überblick zu behalten.

Die relevanten Verfahren des Natural Language Processing sind in verschiedene Bereiche gegliedert, die ihrerseits aus verschiedenen Methoden bestehen. Sie bauen oft aufeinander auf und werden für die Verarbeitung von natürlicher Sprache in Kombination miteinander eingesetzt. (Quelle: IntraFind)

Franz Kögl studierte Elektrotechnik mit einem anschließenden Aufbaustudium zum Wirtschaftsingenieur an der Fachhochschule München. Nach fünf Jahren Berufserfahrung bei inhabergeführten, mittelständischen Unternehmen gründete er 2000 mit der IntraFind Software AG sein eigenes Unternehmen für Enterprise Search und AI-basierte Anwendungen.

Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.

35252

share

Artikel teilen

Top Artikel

Ähnliche Artikel