In der digitalen Welt übernehmen immer mehr Algorithmen Teile unserer Arbeit. Sie berechnen die Relevanz von Beiträgen in sozialen Netzwerken, sagen voraus, welche Videos bei YouTube interessant sein könnten und erstellen auch immer häufiger selbst Content. Vor allem bei Standard-Texten erscheint dies ein sinnvoller Vorgang. Können Algorithmen in Zukunft menschliche Redakteure komplett ersetzen?
Daten sind die Queller aktueller Texte
Um zu verstehen, wie die maschinelle Texterstellung funktioniert, lohnt zunächst ein Blick auf die Art der Informationsbeschaffung: Wenn ein Algorithmus einen Text „verfasst“, muss er für die Daten, die als Grundlage dienen, eine Quelle haben. Dies heißt nichts anderes, als dass es einen großen Fundus an Inhalten braucht, aus dem er relevante Muster filtern kann. Auch ein menschlicher Redakteur benötigt diese Daten – ohne sie entsteht kein Text.
Ein Redakteur bedient sich dazu Agenturmeldungen, eigenen Interviews, Beobachtungen, Augenzeugenberichten und anderer Recherchequellen. Während der Mensch auf Sinneseindrücke, Video-, Audio-, Bild und Textmaterial zurückgreifen kann, benötigt die Maschine diese Informationen als digitalen Code. Schon seit einigen Jahren ist es möglich, dass beispielsweise Audioaufnahmen maschinell transkribiert werden. Die Ergebnisse sind mittlerweile so gut, dass man sie nach Abschluss der Transkription meist nur noch sprachlich korrigieren muss. Damit spart eine solche Software viel Zeit, die Redakteure sinnvoller nutzen können. Bei Videos funktioniert diese Technologie sehr ähnlich: Portale wie YouTube bieten an, die gesprochenen Inhalte in Form von Untertiteln automatisiert auszugeben. Diese müssen – Stand heute – nachträglich aber auch noch korrigiert werden. Die eigentliche Handlung automatisiert zu verschriftlichen, ist aktuell noch sehr schwer möglich.
Text Mining als Basis für automatisierten Content
Generell sind Texte für eine maschinelle Einordnung schwerer greifbar als beispielsweise Daten in einer Excel-Tabelle: Das „SZ Streiflicht“ lässt sich eben nicht in Nullen und Einsen gießen. Die große Herausforderung ist die unterschiedliche Schreibweise von menschlichen Autoren. Ironie, Tonalitäten und das „zwischen den Zeilen“ Stehende erschweren eine standardisierte Auswertung. Deshalb ist es hier unerlässlich, dass immer eine ausreichend große Menge an Text für die Analyse vorliegt. Nur auf diese Weise erlernen die Algorithmen den jeweiligen Kontext.
Ausreichend Informationen vorausgesetzt, muss eine Software sie auswerten, um die Informationen für einen daraus neu zu erstellenden Text herauszufiltern. Diesen Prozess nennt man Text Mining. Hierbei handelt es sich um eine automatisierte, linguistische Analyse auf Basis programmierter Scripte, die verschiedene Funktionen bietet, wie die genannte Text-Extraktion. Voraussetzung dafür sind umfangreiche Grundtexte (also Big Data), deren Inhalte die Algorithmen clustern und zusammenfassen. Dazu muss die Software erkennen, welche wichtig für das jeweilige Thema sind. Dies gelingt, indem sie beispielsweise Wortkombinationen analysiert, Schlüsselwörter herausstellt und die Häufigkeit bestimmter Begriffe auswertet.
Mit Hilfe einer Sentiment-Analyse können Algorithmen zudem die Stimmung in Beiträgen bewerten und damit, ob das jeweilige Thema positiv, negativ oder neutral behandelt wird. Hier erfährt das Mining aber auch seine Limitierung: Ironie oder Sarkasmus überfordern die maschinellen Verfahren meist noch. Anbieter werben zwar mit 70 bis 90 Prozent korrekter Interpretation. Allerdings reicht eine falsche, um den Sinn einer Nachricht umzudrehen. Insofern ist die Quote noch lange nicht ausreichend.
Zusammenhänge in Big Data finden
Eine vielversprechende Technologie ist „Concept Linkage“. Algorithmen suchen dabei nach Verbindungen und Mustern in Texten. Die einfachste Form ist die Suche nach „Duplicated Content“, wie ihn Suchmaschinen und SEO-Tools einsetzen, aber auch Universitäten, die die Autorenleistung bei neuen (oder auch manchen alten…) Doktorarbeiten auf die Art validieren.
Potential hat das „Concept Linkage“ vor allem, weil der Umfang des Inputs für die Maschinen quasi keine Rolle spielt. Theoretisch könnten sie auch ganze Bibliotheksbestände analysieren – ein für Menschen kaum mehr leistbarer Aufwand. Zusätzlich besteht die Gefahr, dass menschliche Redakteure gewisse Zusammenhänge nicht finden. Hier liegt der Vorteil klar bei den Algorithmen, wie das Beispiel der Panama Papers zeigt. Die weltweite Auswertung der über elf Millionen Dokumente war nur mit Hilfe von maschinellem Text Mining möglich. Hätten die Reporter der Süddeutschen Zeitung und ihre internationalen Kollegen diese Menge an Dokumenten händisch abgleichen müssen, liefe die Auswertung wohl heute noch.
Auch in der Wissenschaft, mit ihren oft sehr umfangreichen Datenquellen eröffnet Text Mining neue Möglichkeiten: Berichte und Studien aus weltweiten Quellen lassen sich so bündeln und analysieren, so dass die Forschung bisher nicht gesehene Zusammenhänge ausfindig machen kann – sei es im Kampf gegen tödliche Krankheiten oder auf der Suche nach astronomischen Phänomenen.
Algorithmen schreiben nur einfache Texte
Für die spätere Texterstellung ist es sehr wichtig, dass die umfassenden Datenbanken regelmäßig gepflegt werden, vor allem dann, wenn man eine Quelle häufiger nutzen will. Durch diesen noch sehr hohen Aufwand eignet sich Content Automation vor allem für Produkttexte und Nachrichten mit stark standardisierten Mustern, wie Börsen-, Sport- oder Wettermeldungen. Algorithmen können diese schon so elaboriert verfassen, dass sie häufig nicht mehr von menschlichen Texten unterscheidbar sind. Große Unternehmen, wie das Versandhaus OTTO, nutzen Content Automation längst. Aufgrund des riesigen Produktportfolios erspart sie eine Menge Arbeit – vor allem deshalb, weil die Kurztexte selten von besonderer sprachlicher Kreativität zeugen müssen.
Der Algorithmus unterstützt News-Redakteure
Auch in mehr und mehr News-Redaktionen übernehmen Algorithmen die Erstellung standardisierter, sich wiederholender Nachrichten und Service-Texte wie Wetterberichte oder Horoskope. Bei Reportagen und Fachtexten hingegen sind immer noch die „echten“ Journalisten gefragt, weil nur sie individuelles Vokabular und persönliche Haltung verbinden. Die Automatisierung hilft Redakteuren aber dabei, sich auf die eigentlichen Geschichten zu konzentrieren. Hintergrundarbeiten wie das erwähnte Transkribieren von Interviews etwa fallen weg.
Ob Algorithmen jemals alle Arbeiten von menschlichen Redaktionen übernehmen können, lässt sich heute noch nicht seriös vorhersagen. Sicher ist, dass Menschen und Maschinen in Zukunft noch stärker zusammenarbeiten werden. Ohne Content Automation würde es künftig auch unmöglich, den weltweit steigenden Bedarf an Inhalten zu erstellen. Noch nie gab es soviel Text-Content wie heute. Onlinehändler, News-Plattformen, Blogs – alle produzieren täglich neue Texte. Nicht zu vergessen Behörden, Forschung und alle Unternehmen, die auf Online Marketing setzen. Diese Flut an Informationen lässt sich mit menschlicher Lesekraft nicht mehr auswerten.
Der Roboterjournalismus der Zukunft
Wie stark und vor allem wie schnell Text Mining den Journalismus letztlich verändern wird, ist heute noch schwer vorherzusagen. Fest steht, dass der Algorithmus weiter deutlich an Relevanz gewinnen wird – im Agenda Setting wie in der Produktion.
Beim Agenda Setting geht es vor allem um Big Data-basierte Textanalysen: Der Algorithmus kann, ohne redaktionelles oder persönliches Bias, fast in Echtzeit ermitteln, welche Themen in welchen Kontexten und welchen Regionen Konjunktur haben. Auch wenn (noch) der Journalist schlussendlich selbst entscheidet, was zur Schlagzeile wird, wird der Algorithmus damit zum neuen Gatekeeper. Das Framing durch Portale wie YouTube und Social Media wie Facebook oder Twitter geht bereits in diese Richtung.
Im Bereich Produktion werden Algorithmen noch deutlich stärker personalisierten Content ermöglichen. So werden sie Wetternachrichten oder Verkehrsmeldung ortsspezifisch für den jeweiligen Nutzer in Echtzeit erstellen. Es gibt bereits Startups, die sich auf genau diese Content Automation spezialisiert haben – eine Erfolgsgeschichte ist beispielsweise die von Retresco in Berlin.
Durch die Weiterentwicklung von Sprachassistenten wie Siri, Cortana oder Alexa ändert sich aber auch die Art, wie solche Texte aussehen müssen: Wenn wir Nachrichten eher hören als sie zu lesen, muss die Info im Sinne von Radionachrichten noch mehr auf den Punkt kommen. Text Mining dürfte daher auch eine Kernkompetenz der Sprachassistenten von morgen sein, um selbständig Textinformationen audio-gerecht wiederzugeben.
Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.