Ein altbekanntes Phänomen erscheint in neuem Licht
Maschinelles Lernen (ML) bildet heutzutage die Grundlage für eine Vielzahl von KI-basierten Verfahren innerhalb verschiedener Industrie- und Dienstleistungssektoren. Bei der Entwicklung und Implementierung dieser Verfahren wird typischerweise ein System von komplexen und probabilistischen Entscheidungsregeln in einer Lernphase aufgebaut, indem ein Algorithmus, anhand eines Trainingsdatensatzes mit gekennzeichneten Beispielen, eine vorgegebene Fehlerfunktion minimiert. Anschließend werden die Ergebnisse des maschinellen Lernverfahrens auf einem Testdatensatz evaluiert. Unterliegen Trainings- und Testdaten dabei einer identischen oder zumindest sehr ähnlichen und voneinander unabhängigen Verteilung, d.h. die Datenmerkmale sind weitestgehend unkorreliert und nehmen mit gleicher Wahrscheinlichkeit die gleichen Ausprägungen an, so bezeichnet man diese als independent-and-identically-distributed (i.i.d.). Mit dieser Art von Daten kommt maschinelles Lernen in der Regel gut zurecht, so dass, im praktischen Einsatz, präzise und robuste Ergebnisse erzielt werden können.
In realen Szenarien zeigt sich jedoch häufig, dass sich Charakteristika einzelner Ausprägungen von Datenmerkmalen stark von denen der Trainings- und Entwicklungsumgebung unterscheiden, mit der Folge einer Instabilität von betroffenen KI-basierten Anwendungen. Trennschärfe und Prognosegenauigkeit der zu Grunde liegenden ML-Modelle werden stark gemindert oder verschwindet gar völlig, man spricht hier vom so genannten out-of-distribution (o.o.d.) Problem. Dieses altbekannte Phänomen ist ein sehr typisches, das unter dem Begriff Shortcut Learning subsumiert wird. Allgemeiner könnte man Shortcut Learning als eine Anomalie bezeichnen, die unter sehr allgemeinen und eher unspezifischen Umständen auftritt, wenn ein ML-Modell zwar einfach zu erkennende, aber irrelevante Zusammenhänge erlernt und diese fälschlicherweise verallgemeinert. Vereinfacht gesprochen, wählt das Modell den Weg des geringsten Widerstandes, verliert aber dadurch seine Fähigkeit zur Problemlösung in realen Anwendungsszenarien.
Ein eher preziös anmutendes Beispiel, an dem das Phänomen des Shortcut Learnings jedoch gut illustriert werden kann, ist die, von vielen Fachautoren aufgeführte, Bilderkennung von Kühen. Trainiert man ein tiefes neuronales Netz, zumeist ein so genanntes faltendes neuronales Netz, mit Beispielbildern von Kühen in einem typischen Kontext, also in der Regel auf oder vor einer grünen Wiese, so kann es passieren, dass das neuronale Netz nicht etwa die generischen äußeren Eigenschaften von Kühen erkennt, sondern einfach nur einen Zusammenhang zwischen der Farbe Grün und Kühen herstellt. Wird anschließend eine, auf einem derartigen neuronalen Netz basierende, Bilderkennungssoftware mit einer Kuh vor einem blauen Hintergrund konfrontiert, so wird diese wahrscheinlich nicht als solche erkannt werden. Hingegen würde eine Katze vor einer grünen Wandtapete, wohl möglich, fälschlicherweise als Kuh identifiziert werden. Die KI hat also eine Abkürzung, oder zu Englisch einen Shortcut, genommen und anstatt der Fähigkeit zur wirklichen Bilderkennung nur eine Scheinkausalität, aufgrund einer vorhandenen Korrelation in den Trainingsdaten, erlernt. Dieses in der vergleichenden Psychologie und den Neurowissenschaften bereits bekannte Phänomen, stellt künstliche Intelligenz zunehmend vor Herausforderungen.
Ein Phänomen, das ebenfalls zu einer Beeinträchtigung der Leistungsfähigkeit von KI-basierten Verfahren in der Produktivumgebung führen kann, aber in der Regel wesentlich leichter zu erkennen und beheben ist, kennt man unter dem Begriff Overfitting und sollte keinesfalls zu Verwechselungen mit Shortcut Learning führen. Zwar können beide Phänomene überlappende Ursachen haben, jedoch beschreibt Overfitting eine allgemeine Überangepasstheit des ML-Modells an den Trainingsdatensatz durch die Wahl zu vieler erklärender Parameter, so dass die Vorhersagegenauigkeit bereits auf identisch verteilten (i.i.d.) Testdatensätzen signifikant sinkt.
Zwischen Datenknappheit, Komplexität und Regulatorik
Mit der steigenden Leistungsfähigkeit von KI-gestützten Systemen nehmen ebenfalls die Anforderungen an die Verfügbarkeit, das Volumen und die Qualität von Daten zu. Beispielsweise würde man für eine spezifische Anwendung zur, bereits erwähnten, Bilderkennung sowohl qualitativ hochwertige Trainingsdaten mit charakteristischen Bildinhalten als auch eine hinreichend große Anzahl und Bandbreite von Beispielbildern benötigen, was sich in der Praxis häufig nicht gewährleisten lässt. So kommt es in realen Anwendungsfällen für komplexe ML-Modelle häufig vor, dass sich verschiedene Anforderungen an Daten gegenseitig ausschließen oder zumindest negativ beeinflussen, so dass es häufig nicht genug relevante Trainingsdaten gibt. Diese Datenknappheit könnte, in einigen Bereichen, bereits kurzfristig massive Ausmaße annehmen. Hierdurch dürften sich die Herausforderungen im Zusammenhang mit Shortcut Learning weiter verschärfen.
Auch der Umstand, dass die meisten modernen KI-Anwendungen auf tiefen neuronalen Netzen basieren, die aufgrund ihrer mathematischen Eigenschaft gewährleisten können, dass auch komplexe und vereinzelte Muster in Daten erkannt und daraus entsprechende Systematiken abgeleitet werden können, kommt einer besonderen Bedeutung zu. Man spricht hierbei auch häufig von Generalisierbarkeit, also auf die, bereits eingangs verwiesene, Fähigkeit eines maschinellen Lernverfahrens Beziehungen zwischen bekannten Eingangs- und Ausgangsinformationen zu abstrahieren, um neue unbekannte Datensätze richtig zu klassifizieren bzw. zukünftige Ergebnisse korrekt zu prognostizieren. Es zeigt sich allerdings, dass gerade tiefe neuronale Netze anfällig für Shortcut Learning sind.
Unternehmen und Anbieter von KI-Produkten werden zukünftig stärker mit der Problematik konfrontiert werden, wie mit der Gefahr des Versagens von ML-Modellen in Folge von Shortcut Learning umzugehen ist. Im günstigsten Fall wird eine unbrauchbare KI in der frühen Testphase verworfen und als Fehlinvestition verbucht. Zwar können hierdurch hohe finanzielle Schäden entstehen, da nicht nur die direkten Entwicklungskosten berücksichtigt werden müssen, sondern oftmals auch Kosten, die durch eine strategische Fehlplanung entstanden sind, insbesondere wenn Pilotprojekte innerhalb einer organisationsweiten KI-Strategie betroffen sind. Im ungünstigeren Fall wird eine, z.B. durch Shortcut Learning, fehlgeleiteten KI in Betrieb genommen bzw. in den Markt gebracht, was insbesondere in kritischen Anwendungsfällen mit wenig Fehlertoleranz, wie beispielsweise der Kreditvergabe, der Finanzberatung oder der medizinischen Diagnostik, verheerende Folgen nach sich ziehen kann.
Für Unternehmen entstehen dadurch unkalkulierbare Reputationsrisiken, denn fehlerbehaftete Produkte können gerade in ihrem Anfangsstadium zu einem massiven Vertrauensverlust des Marktes in eine neue Technologie führen, was der, öffentlich zur Schau gestellte, Faktenfehler des Google-Chatbots Bard zum James-Webb-Weltraumteleskops, aus dem Frühjahr 2023, demonstriert, der kurzum für einen Kurssturz der Aktie des Google-Mutterkonzerns Alphabet sorgte. Zudem ist am Horizont bereits ein regulatorischer Rahmen zu erkennen, der gravierende Auswirkungen auf die Entwicklung und den Vertrieb von KI-Produkten haben könnte. Bereits im April 2021 hat die Europäischen Kommission, ein derzeit öffentlich breit diskutierten, Vorschlag für ein Gesetz über Künstliche Intelligenz eingebracht, der neben der Einführung von Risikomanagementsystemen und ausführlichen Dokumentationsverpflichtungen, insbesondere auch hohe Anforderungen an die Stabilität, Genauigkeit und Qualität von Hochrisiko-KI-Systemen vorsieht. Ein weiterer Kommissions-Vorschlag enthält weitreichende Richtlinien zur Durchsetzung von Schadensersatzansprüchen und Produkthaftung in Folge fehlerhafter KI-Systeme. Insgesamt wird man davon ausgehen müssen, dass zukünftig einheitliche Qualitätsstandards für KI-Produkte und im Bereich der kritischen Anwendungsfelder, durch weitreichende regulatorische Bestimmungen, hohe Markteintrittsbarrieren für komplexe KI-Systeme entstehen werden, die aber gleichzeitig auch Rechtssicherheit und somit Chancen für einen breiteren Einsatz von KI darstellen.
Der Aufbau einer Wissensbasis als Vermeidungsstrategie
Um nachhaltige Vermeidungsstrategien und Risikomanagementsysteme entwickeln und erfolgreich implementieren zu können, muss sich die fortlaufende wissenschaftliche Diskussion zukünftig noch stärker auf praktische und unternehmerische Aspekte ausweiten. Hierbei wird die sorgfältige Reflexion von Erkenntnissen über die technologie- und modellbedingten Entstehungsgründe von Shortcut Learning zwar eine entscheidende Bedeutung haben, aber genauso wichtig werden die Konzeption und Umsetzung von Maßnahmen zur Anpassung von Management und Organisation im Rahmen von KI-Projekten sein. Ein erster konkreter Handlungsstrang wäre der Aufbau einer eigenen Wissensbasis, die Unternehmen und Organisationen dazu befähigen soll, Projekte im Bereich der Entwicklung von KI-Anwendungen besser, in Hinblick auf Risikomanagement und Umsetzung von Qualitätsstandards, zu strukturieren und fachspezifisches Domänenwissen und technisches Best-Practice-Knowhow miteinander zu verknüpfen.
Dabei ist die Integration von spezifischem Domänen- und Anwenderwissen ohnehin ein fundamentaler Baustein bei der Entwicklung neuer KI-Systeme, schließlich müssen Geschäftsabläufe und -modelle ausreichend verstanden werden, bevor ein geeignetes Daten- und ML-Modell konzipiert werden kann. Im Zusammenhang mit Shortcut Learning hat Domänenwissen allerdings eine noch weitaus größere Relevanz, da eine besondere Abhängigkeit des Shortcut-Risikos von der Auswahl der Datenmerkmale bzw. Features zu bestehen scheint. Es gilt hier frühzeitig zu klären, welche Merkmale eine tatsächliche Aussagekraft haben und welche, zwar in bestimmten Ausprägungen häufig vorkommen, aber letztlich für ein konkretes Problem nur irrelevanten Kontext darstellen. Über dieses klassische Verständnis von Domänenwissen hinaus, sollten Analytics- und KI-Einheiten zukünftig eigenes anwendungsspezifisches Fach- und Erfahrungswissen über kritische Phänomene, wie dem des Shortcut Learnings, in einer eigenen Wissensbasis, aufbauen und dokumentieren.
Im nächsten Schritt muss diese Wissensbasis, als essenzieller Bestandteil, in vorhandene Projektstrukturen integriert werden. So existieren für die Planung und Durchführung von Entwicklungsprojekten im Bereich von maschinellem Lernen und Data Science bereits viele standardisierte Vorgehensweisen, wie beispielsweise CRISP-DM (Cross Industry Standard Process for Data Mining), die zumeist Projektphasen wie das Geschäfts- und Datenverständnis, die Datenvorbereitung und Modellierung sowie eine Test- und Evaluationsphase enthalten. Um Shortcut Learning bei der Entwicklung und Bereitstellung von KI-Anwendungen zu vermeiden, müssen die unterschiedlichen Projektphasen um zusätzliche Qualitätsstandards, Kontrollmechanismen und Schnittstellen zur Dokumentation erweitern werden. So könnten in der Datenvorbereitungs- und Modellierungsphase bereits bestimmte maschinelle Lernverfahren vorab ausgeschlossen werden, wenn sie bei vergleichbaren Problemstellungen bereits häufig zu fehlerhaften Ergebnissen geführt haben oder aber bereits die Verteilung der verfügbaren Trainings- und Testdatensätze, für eine bestimmte Klasse von Algorithmen, zu einem erhöhten Shortcut-Risiko führen würde.
Zusammenfassend lässt sich festhalten, dass die zunehmenden Anforderungen an die Qualität und Bandbreite von Daten sowie die Leistungsfähigkeit von KI-Systemen auf der einen Seite und strengere regulatorische Bestimmungen auf der anderen Seite, zukünftig ein Spannungsfeld für Produkte und Anwendungen, die auf komplexen maschinellen Lernverfahren basieren, bilden werden. Technische und modellbedingte Phänomene wie Shortcut Learning werden hierdurch voraussichtlich, in zunehmendem Maße, einer unternehmerischen Risikobewertung unterliegen müssen. Ein ausreichender Wissenstransfer in die eigene Organisation sowie darauf aufbauende Maßnahmen zur Risikovermeidung können eine geeignete Basis für die Entwicklung und Vermarktung von sicheren KI-Systemen, auch in kritischen Anwendungsbereichen, bereitstellen.
Quellen und weiterführende Literatur
Geirhos, Robert & Jacobsen, Jörn-Henrik & Michaelis, Claudio & Zemel, Richard & Brendel, Wieland & Bethge, Matthias & Wichmann, Felix. (2020). Shortcut learning in deep neural networks. Nature Machine Intelligence. 2. 665-673. 10.1038/s42256-020-00257-z.
Du, Mengnan & He, Fengxiang & Zou, Na & Tao, Dacheng & Hu, Xia. (2022). Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey.
Villalobos, Pablo & Sevilla, Jaime & Heim, Lennart & Besiroglu, Tamay & Hobbhahn, Marius & Ho, Anson. (2022). Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. 10.48550/arXiv.2211.04325.
Murali, Nihal & Puli, Aahlad & Yu, Ke & Ranganath, Rajesh & Batmanghelich, Kayhan. (2023). Shortcut Learning Through the Lens of Early Training Dynamics. 10.48550/arXiv.2302.09344.
Saranrittichai, Piyapat & Mummadi, Chaithanya & Blaiotta, Claudia & Munoz, Mauricio & Fischer, Volker. (2022). Overcoming Shortcut Learning in a Target Domain by Generalizing Basic Visual Factors from a Source Domain. 10.1007/978-3-031-19806-9_17.
Robinson, J., & Sun, Li & Yu, Ke & Batmanghelich, Kayhan & Jegelka, Stefanie & Sra, Suvrit. (2021). Can contrastive learning avoid shortcut solutions?. Advances in neural information processing systems. 34. 4974-4986.
Brown, Alexander & Tomasev, Nenad & Freyberg, Jan & Liu, Yuan & Karthikesalingam, Alan & Schrouff, Jessica. (2022). Detecting and Preventing Shortcut Learning for Fair Medical AI using Shortcut Testing (ShorT). 10.48550/arXiv.2207.10384.
Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.