So lernen Maschinen beim Machine Learning

bei

 / 12. July. 2018

Alle reden über Machine Learning. Aber wie funktioniert das eigentlich? Und was genau hat es mit den viel zitierten lernenden Algorithmen auf sich? Ein Beispiel aus dem Bereich Enterprise Search und Content Analytics gibt Antworten.

Eines vorweg: Machine Learning (ML) ist nicht dasselbe wie Künstliche Intelligenz (KI) – auch wenn dieser Eindruck beim Blick in den Blätterwald entstehen kann, weil die beiden Ausdrücke dort häufig synonym verwendet werden. Künstliche Intelligenz ist der Oberbegriff für sämtliche Technologien, die menschliche Intelligenz nachahmen; und Machine Learning ist nur eine dieser Technologien. Aktuell steht sie besonders im Fokus der Aufmerksamkeit, weil sie als eine der wichtigsten und nutzbringendsten KI-Disziplinen gilt.

Dabei ist Machine Learning, oder Maschinelles Lernen, auch wieder ein Oberbegriff. ML vereint zahlreiche Lernverfahren, die auf numerischen Verfahren aufbauen und die im Grunde genommen nichts anderes als angewandte Statistik sind. Dazu gehört unter anderem das Deep Learning, das derzeit große Aufmerksamkeit erhält. In der Fachliteratur wird Machine Learning grundsätzlich in überwachte („supervised“) und unüberwachte („unsupervised“) Verfahren unterschieden.

Bei beiden Verfahren werden Algorithmen durch die Eingabe von bekannten Beispieldaten darauf trainiert, künftig unbekannte Daten selbstständig erkennen zu können. Unüberwachte Verfahren lernen dabei nicht näher definierte Strukturen in den Daten. Auf diese Weise werden beispielsweise beim Clustering ähnliche Daten gruppiert. Bei überwachten Verfahren wie etwa der Textklassifikation werden den Beispieldaten dagegen vordefinierte Zielwerte, Kategorien oder Rubriken zugeordnet. In der Praxis liefern unüberwachte Lernverfahren oftmals Ergebnisse, die dann als Grundlage für überwachte Lernverfahren genutzt werden können.

Machine Learning ist im Umfeld von Enterprise Search und Content Analytics eine von mehreren leistungsstarken KI-Technologien (Quelle: IntraFind)

Texte automatisch den richtigen Themen zuordnen

Beim überwachten Verfahren der Textklassifikation beispielsweise ist das Ziel, dass ein System neue, ihm unbekannte Texte automatisch in die richtige thematische Kategorie einordnet. Ein Lernalgorithmus, der das sehr gut bewerkstelligen kann, ist die Support Vector Machine (SVM). Er bildet ein mathematisches Verfahren ab, um Gemeinsamkeiten in Objekten zu erkennen, die Objekte darauf aufbauend zu klassifizieren und die Grenzen zwischen den einzelnen Klassen klar festzulegen. Damit eignet er sich ideal für die automatische Textklassifikation.

Der Algorithmus wird zunächst trainiert. Dieses Training besteht darin, ihn Texte auslesen zu lassen und ihm dabei jeweils vorzugeben, in welche thematische Kategorie diese Texte fallen. Der Algorithmus ermittelt dann, welche Begriffe in den Texten der einzelnen Kategorien besonders häufig vorkommen; Wörter ohne thematischen Bezug wie Artikel, Pronomen oder Präpositionen berücksichtigt er dabei nicht. Auf diese Weise kennt der Algorithmus am Ende der Trainingsphase die für jede Themenkategorie entscheidenden Schlüsselwörter.

Mit diesem angelernten Wissen kann der Algorithmus nach Abschluss der Trainingsphase neue, unbekannte Texte eigenständig den passenden Themen zuordnen. Dazu analysiert und vergleicht er sie mit den Schlüsselwörtern der Themenkategorien und berücksichtigt dabei nicht nur das Vorhandensein, sondern auch die Abwesenheit von Schlüsselwörtern. So kann er feststellen, dass in einem Text die Schlüsselwörter einer bestimmten Kategorie statistisch signifikant häufig vorkommen, während gleichzeitig die Schlüsselwörter der übrigen Kategorien statistisch signifikant fehlen.

Die Erfahrung aus zahlreichen Projekten zeigt, dass die Themen von Texten mit dieser Methode sehr treffsicher erkannt werden. Ist sich das System dennoch einmal unsicher, gibt es den entsprechenden Text  zur Nachselektion zurück, so dass er manuell dem passenden Thema zugeordnet werden kann. Diese Zuordnung wirkt dann wiederum als Trainingseinheit, die das angelernte Wissen des Systems ausbaut und so dazu beiträgt, seine Ergebnisse weiter zu verbessern.

Leistungsfähige Anwendungen für Unternehmen möglich

Mit Hilfe dieses ML-Verfahrens können Unternehmen leistungsfähige Anwendungen in den Bereichen Enterprise Search und Content Analytics realisieren. So lassen sich etwa Lösungen für die unternehmensweite Suche um beliebige themenbasierte Suchfilter erweitern. Die Mitarbeiter erhalten damit die Möglichkeit, effizienter zu recherchieren und sich das im Unternehmen vorhandene Wissen zielgerichteter zu erschließen.

Ein erhebliches Optimierungspotenzial bietet das Verfahren außerdem für Unternehmen, in denen täglich oder wöchentlich sehr viele eingehende Texte zur weiteren Bearbeitung manuell vorsortiert werden müssen – seien es gescannte Briefe, E-Mails oder sonstige digitale Dokumente. Noch größer wird das Potenzial, wenn es dabei zusätzlich sehr viele Dokumentenarten gibt, zwischen denen unterschieden werden muss. Eine trainierte Maschine kann innerhalb von Millisekunden ein eingehendes Dokument klassifizieren, und das deutlich objektiver und damit weniger fehleranfällig als ein Mensch. Zusätzlich lässt sich die automatische Einordnung noch in digitale Workflows integrieren. Dann können die IT-Systeme eingehende Neuverträge, Kündigungen oder Beschwerden eigenständig zuordnen und direkt an die zuständigen Mitarbeiter weiterleiten – und die Unternehmen ganz erhebliche Skaleneffekte erzielen.

Damit zeigt das Beispiel der Textklassifizierung nicht nur, wie maschinelles Lernen funktioniert. Es demonstriert auch, wo der Kernnutzen dieser KI-Technologie liegt: Sie kann von Standard- und Routinetätigkeiten entlasten und dadurch Freiraum für Aufgaben schaffen, die die natürliche Intelligenz von Menschen erfordern.

Der Autor: Den Grundstein seiner Karriere legte Franz Kögl mit einem Studium der Elektrotechnik und einem anschließenden Aufbaustudium zum Wirtschaftsingenieur an der Fachhochschule München. Nach dem Studium war er mehrere Jahre lang als Projektleiter und Qualitätsmanagementbeauftragter für ein mittelständisches Systemhaus im Bereich Logistiklösungen und mobile Datenerfassung tätig. Anschließend wechselte er als Director Sales zu einem Softwareanbieter für Wissensmanagementsystem. Nach fünf Jahren Berufserfahrung bei inhabergeführten, mittelständischen Unternehmen entschloss sich Franz Kögl dazu, mit der IntraFind Software AG sein eigenes Unternehmen zu gründen. Seit dem Jahr 2000 vertreibt der etablierte Softwareanbieter erfolgreich Enterprise Search  und AI-basierte Anwendungen.

Vorheriger ArtikelMachine Learning und die Zukunft des Menschen in der Arbeitswelt.
Nächster ArtikelIT-Integration Erfolgsfaktor der Digitalisierung