Human-in-the-Loop: Wie Mensch und KI Aufgaben besser lösen

Teams aus Mensch und Maschine sind deutlich erfolgreicher als Mensch-Mensch- oder Maschine-Maschine-Teams – so zeigen es Forschungsergebnisse aus den unterschiedlichen Disziplinen wie der Medizin oder der IT. Der Fachbeitrag erläutert anhand von wissenschaftlichen Beispielen, welche Charakteristiken Probleme haben müssen, damit sie sich für die Lösung durch gemischte Teams eignen.
Von   Martin Rueckert   |  Chief Artificial Intelligence Officer   |  Diamant Software
  Martin Riedl   |  Senior Data Scientist   |  Diamant Software
13. Juni 2022

Kinder lernen die Welt kennen, indem sie mit anderen Menschen und ihrer Umgebung interagieren. Zeigt ein Kind auf einen Vogel, sagt und „wauwau“, kann man dem Kind Feedback geben („Nein, das ist kein Hund, sondern ein Vogel“). Dadurch ist es in der Lage zu erkennen, dass seine Aussage falsch war und lernt, diese zu korrigieren.

Während in dem Beispiel eine Interaktion zwischen zwei Menschen stattfindet, bezeichnet „Human-in-the-Loop“ (HITL) eine Interaktion zwischen Menschen und einer künstlichen Intelligenz (KI bzw. Maschine), mit dem Ziel, die KI der Maschine zu verbessern.

Oft wird die KI mittels Methoden des überwachten Lernens (supervised training) trainiert. Das bedeutet, dass sie anhand eines fixen Bestands von gelabelten, also annotierten Trainingsdaten lernt, die von Expert:innen erstellt werden. Die Daten werden in ein Modell übertragen und dann auf neue „ungesehenen” Daten angewendet, um so Vorhersagen zu liefern. Diese Lernverfahren haben allerdings Einschränkungen, da genügend Trainingsdaten vorhanden sein müssen. Weiterhin sind diese Modelle starr, können sich also nicht adaptieren, wenn sich z. B. Daten über einen Zeitraum verändern.

Bei unüberwachten Lernverfahren werden Daten ohne Vorhersagen von Expert:innen verwendet. Ziel ist es, Strukturen wie z. B. Gruppierungen zu extrahieren. Durch die datengetriebene Natur solcher Methoden adaptieren sich diese an die Daten, auf die sie angewendet werden. Allerdings haben sie kein Wissen, z. B. zum Namen der Strukturen, die gefunden und extrahiert werden.

Während bei beiden klassischen Lernverfahren kein HITL vorgesehen ist, gibt es Methoden des maschinellen Lernens, die eine Interaktion gewährleisten. Bei diesen Methoden des interaktiven maschinellen Lernens (z. B. Reinforcement Learning, Active Learning) werden keine statischen Modelle trainiert. Stattdessen wird ein Modell kontinuierlich weiter optimiert und durch eine Interaktion mit sogenannten Agenten angepasst. Hierbei können Agenten andere Systeme sein oder auch Menschen. Sind die Agenten Menschen, spricht man von HITL-Ansätzen (Holzinger, 2016).

Ziel von HITL-Ansätzen ist es, bessere Modelle zu trainieren und diese durch die Unterstützung von Expert:innenwissen schneller zu erhalten. Im einfachsten Fall gibt der Mensch dem System Feedback, wenn die Maschine sich bezüglich der Vorhersage unsicher ist. Das Feedback wird anschließend genutzt, um eine eindeutige Entscheidung zu fällen. Weiterhin sollte die KI in der Lage sein, das Wissen anzuwenden, um bei einer ähnlichen Entscheidung die korrekte Vorhersage treffen zu können. Geht man einen Schritt weiter, dann wird die menschliche Komponente beim HITL nicht nur als „allwissendes Orakel“ eingesetzt, sondern es findet eine gleichberechtigte Interaktion statt. Die Zielvorstellung ist hier, dass KI und Mensch im Team zusammenarbeiten, um ein Problem zu lösen (vgl. Canonico, 2019, Assael 2022).

Die Zukunft von HITL

Oft wird der HITL-Begriff wie folgt definiert: Die Verbesserung eines Algorithmus, der mit einem menschlichen Agenten interagiert, und so lernt, die Ausgabe zu verbessern. Aus der Sicht der menschlichen Arbeitnehmer:innen ist dies jedoch problematisch, weil in dieser Betrachtung die Fähigkeiten des Menschen als lernbarer Modell-Input gesehen werden kann. Das bedeutet, dass mittelfristig jeglicher Output des Menschen durch den übergeordneten Vorhersageprozess automatisiert bzw. übernommen werden kann.

Eine wünschenswerte Formulierung des HITL-Begriffs ist hingegen, die Verhaltensweisen von Mensch und Maschine zwar unter einem gemeinsamen Ziel zu optimieren, hier aber einen Teamwork-Aspekt zugrunde zu legen. Wichtig ist dabei, dass das Team an sich als unveränderlicher Bestandteil betrachtet und der Aspekt der Zusammenarbeit von einem übergeordneten Modell oder Verfahren optimiert wird. Die Forschung im Bereich Mensch-Maschine-Interaktion hat in verschiedenen Domänen exemplarisch gezeigt, dass Teams aus Mensch und Maschine deutlich erfolgreicher sind als Mensch-Mensch- oder Maschine-Maschine-Teams. Die folgenden Beispiele helfen, besser zu verstehen, welche Charakteristik Probleme haben müssen, damit sie sich für gemischte Teams eignen.

Erkennung von Fällen von Krebs auf Mikroskopie-Scans (Wang, 2016)

In einer Forschungsarbeit des MIT, Harvard Medical School und Beth Israel Deaconess Medical Center wurde ein Deep-Learning-Modell eingesetzt, um Scans von Brustkrebs-Mikroskopien-Proben auf metastatischen Brustkrebs zu klassifizieren. Dabei erreichte das Deep-Learning-Modell eine Erkennungsrate von 92 Prozent, während menschliche Mediziner eine Erkennungsrate von 96 Prozent erreichten. Bemerkenswert ist also, dass Menschen in dieser komplizierten Aufgabe immerhin 4 von 100 Tumore nicht erkennen – ein erhebliches Risiko für die Betroffenen. Nicht außer Acht zu lassen ist auch, dass die Erkennung von Brustkrebs in Biopsie-Bildern eine zeitaufwendige und arbeitsintensive Arbeit ist, weshalb eine KI-Unterstützung hier nicht nur zu höherem Durchsatz und damit mehr Diagnosen verhilft, sondern auch die Arbeit für Fachkräfte vereinfacht, und somit ihrer Überlastung entgegenwirken kann.

In der genannten Arbeit wurden die Ergebnisse des künstlichen neuronalen Netzwerkes, die als eine Tumor-Wahrscheinlichkeits-Heatmap ausgegeben wurden, durch einen menschlichen Pathologen kontrolliert. Dies führte zu einer Steigerung der Erkennungsqualität auf insgesamt über 99 Prozent und reduziert zugleich die menschliche Fehlerrate um 85 Prozent. Die Basis der Interaktion war also die Visualisierung der Wahrscheinlichkeiten, die von dem KI-Modell errechnet wurden. Allerdings war nur dem Menschen in diesem Szenario bewusst, dass er mit dem KI-Modell in einer Art Teamwork arbeitet. Das KI-Modell hingegen benutzt keine gelernte Repräsentation des Interaktionspartners Mensch und dessen Fähigkeiten. Hier besteht ein Unterschied zu menschlichen Teams, denn Menschen besitzen die Fähigkeit, das Wissen und Vermögen ihrer Teammitglieder einzuschätzen und so ihr eigenes Verhalten im Sinne des Teamziels zu optimieren. Jedoch ist der Begriff „Teamwork“ hier nicht im klassischen Sinne zu verstehen, da es sich eher um eine unidirektionale Tandebeziehung wie beim klassischen Mensch-Werkzeug handelt. Sie funktioniert datenbasiert und ist fest im Entwurf des Algorithmus vorgegeben („produziere eine Ausgabe der Vorhersagen in einer bestimmten Visualisierung“). Weder gibt es eine übergeordnete, kontrollierende Instanz, die die Teamvorhersage bearbeitet, noch irgendeine Form der Interaktion zwischen den Mitgliedern. Als intuitives Ziel für eine im menschlichen Sinne „echte” Zusammenarbeit ist also weiterhin ein geteiltes Verständnis der aktuellen Situation und zum zu erreichenden Ziel für ein gutes Ergebnis notwendig, das auf mehrere andere Anwendungsfälle generalisiert. Trotzdem ist offensichtlich, dass das Tandem aus Mensch und Maschine den Arbeitsergebnissen des einzelnen Prozessteilnehmers überlegen ist.

Mensch-Maschine-Teams sind Schach-Supercomputern überlegen (Hipp 2011)

Ein ähnliches Beispiel ist ein 2005 von G. Kasparov durchgeführtes Experiment (Hipp 2011, Thomson 2010) eines Schachturniers von Supercomputern, Menschen und Mensch-Maschine-Teams. Obwohl die Mensch-Maschine-Teams aus nur mittelmäßigen Amateuren und handelsüblichen Computern mit einem Schachprogramm bestanden, schlugen sie die übrigen Teams deutlich. Dabei agierte der Mensch als übergeordnete, steuernde Instanz, die Maschine als Werkzeug, um schnell große Mengen an möglichen Zügen zu explorieren. Die Studie führt an, dass dies auf eine Eigenschaft der Menschen zurückzuführen sei, Schach eher als eine Form der Mustererkennung zu betrachten und nicht als Rechenaufgabe, die zu lösen ist, indem mögliche Züge exploriert werden. Der Mensch lernt ein Bild einer Schachbrett-Situation zu „sehen” und nicht die Positionen der einzelnen Figuren und deren Zugmöglichkeiten. Diese Bilder werden dann bewertet und mögliche folgende Bilder imaginiert und exploriert und wieder jeweils mit guten oder schlechten Bewertungen versehen.

Mensch-KI-Koordination zur gemeinsamen Lösung von Problemen anhand eines Spiels (Carrol 2019)

Um eine allgemeinere Lösung von komplexen Problemen durch eine Interaktion von Mensch und Maschine zu erreichen, scheint es notwendig zu sein, nicht nur in einen Dialog zu treten und so ein Verständnis vom aktuellen Zustand und vom Ziel zu erreichen. Auch ist ein gewisses Verständnis vom menschlichen Verhalten in kooperativen Situationen notwendig. So zeigt eine Studie, dass Agenten, die Wissen über menschliches Verhalten in die Problemlösung mit einbeziehen, in kooperativen Kontext-Modellen, die kein spezielles Verständnis von menschlichen Agenten inkorporieren, deutlich überlegen sind. Um dies zu beweisen, ließen die Forscher KI-Modelle und Menschen ein Spiel namens Overcooked spielen, in welchem ein Mensch und ein KI-Agent versuchen, möglichst viel Suppe zu kochen und an die Tische der Gäste auszuliefern. Hierbei ist die KI näher an den Tischen platziert und der Mensch näher an den Zutaten, sodass ein optimales Verhalten darin besteht, dass die KI die Teller mit der Suppe ausliefert und der Mensch die Suppe kocht.

Für HITL passende Anwendungsfälle

Ganz generell können KI-basierte Algorithmen einen wertvollen Beitrag leisten, wenn das KI-basierte Modell die Rolle eines Koordinators, einer Entscheidungshilfe, eines Agenten oder Teammitglieds einnimmt. Jede dieser Rollen ist unterschiedlich zu modellieren und zu erforschen, weshalb relevante Forschungsgebiete u. a. aus den folgenden Bereichen stammen können und dort mögliche Anwendungsfälle zu sehen sind.

Mit dem Begriff der kollektiven Intelligenz (vgl. Surowiecki 2004) bezeichnet man die Tatsache, dass Gruppen von Agenten (Menschen, KI-basierte Akteure) gemeinsam eine bessere Prognose abgeben als ein Individuum. Dieser Effekt wird verstärkt, wenn zu einem Problem nur spärlicher Informationskontext existiert (Surowiecki, J. 2005). Aufgrund der Strukturen von Agentengruppen, die notwendigerweise existieren müssen, muss verstanden werden, wie in einem solchen kollaborativen Prozess eine Vorhersage produziert wird. Geeignet sind vor allem Probleme, die auf einem makroskopischen Niveau angesiedelt sind, wie z. B. die Vorhersage von Marktbewegungen. Ein weiteres Beispiel von kollektiver Intelligenz ist das Berechnen von Proteinfaltungen durch viele Agenten, die sich diese kostspielige Aufgabe durch die Unterteilung in viele kleinere Arbeitspakete teilen. So können sie gemeinsam, aber ohne komplexe Interaktion das Gesamtproblem lösen. Hier ist die Zusammenarbeit definiert über den statischen Algorithmus der Arbeitspakete-Aufteilung. Ein einzelner Agent muss hierfür nicht in den Dialog mit einem anderen treten und hat so auch keine Repräsentation des Gesamtproblems, da es für die individuelle Aufgabe nicht notwendig ist.

In einem kollektiven, intelligenten Zusammenarbeitskontext wird nicht über die Größe des Teams und damit die Aufteilungen eines großen Problems in gleichförmige kleine Teile skaliert, sondern versucht, die Effektivität durch Einsatz von Teamkognition, kollektiver und künstlicher Intelligenz zu verbessern. Konkret ist der größte Hebel die effektive Koordination des Teams, um die Vorhersagen von größeren, unkoordinierten Teams zu übertreffen. Um das zu erreichen, wird in einem solchen Set-up versucht, die Bereiche gemeinsames Teamverständnis und gemeinsames Situationsbewusstsein zu modellieren. Wichtig ist, dass zur Modellierung eines gemeinsamen Teamverständnisses, zumindest wenn man das menschliche Verständnis des Teambegriffs zugrunde legt, eine gemeinsame Wissensbasis existieren muss. Eine solche zu modellieren ist ein aktuell sehr aktives Forschungsfeld, da seit dem Aufkommen und intensiven Erforschen künstlicher neuronaler Netze (kNN) klar ist, dass kNN nicht auf symbolischer Ebene generalisieren. Das bedeutet, dass sie in der Regel nicht auf einem für den Menschen unmittelbar verständlichen Niveau arbeiten und vice versa, denn kNN können üblicherweise nicht direkt das symbolische Niveau menschlicher Wissensspeicher nutzen.

In einer Studie (Schelble 2020) konnte jedoch gezeigt werden, dass ein Team aus Menschen und KI-Modellen in der Lage ist, sich auf Team-Ebene zu koordinieren. Interessanterweise fand dies ohne die Fähigkeit zur sprachlichen Kommunikation und damit ohne Vorhandensein einer gemeinsamen Wissensrepräsentation auf symbolischer Ebene statt. Die Koordination erfolgte vor allem auf Basis der jeweils beobachteten Handlungen des jeweils anderen Team-Mitglieds. Die Aufgabe in dieser Studie war es, ein Simulationsspiel namens NeoCities (McNeese 2005) zu spielen, in welchem in einer fiktiven, simulierten Stadt Ereignisse eintreten, die dann eine Aktivierung einer Notfall-Aktivität erfordern. Dabei galt es, Aktivitäten und Ressourcen innerhalb und über Teamgrenzen hinweg zu koordinieren. So kann z. B. ein Feuer ausbrechen und es muss die Feuerwehr und der Rettungsdienst geschickt werden. Gemischte Teams waren deutlich erfolgreicher in der Erfüllung einer Aufgabe als rein menschliche Teams. Jedoch ist zu berücksichtigen, dass die Aufgaben und Szenarien innerhalb der Experimente, nicht zwangsläufig generalisierbar sind und sich die Aussage deshalb bislang auf sehr bestimmte Szenarien bezieht. Ebenso wenig konnte gezeigt werden, dass Mensch-Maschine-Teams grundsätzlich erfolgreicher sind als z. B. reine KI-Modell-Teams.

Potential von HITL ist noch lange nicht ausgeschöpft

Zusammenfassend lässt sich sagen, dass speziell Anwendungsfälle von kollektiver Intelligenz stark von Mensch-Maschine-Teams profitieren, in solchen Teams aber andere Faktoren entscheidend sind für den Teamerfolg als in rein menschlichen Teams. Das bedeutet in der Praxis, dass die Mensch-Maschine-Kollaboration, zumindest was die aktuelle Studienlage angeht, sich vor allem für Vorhersagen von Marktbewegungen eignet. Auch ist der HITL-Ansatz denkbar, wenn es darum geht, die Einflüsse von wirtschaftlichen Kenngrößen auf eine bestimmte Kenngröße abzuschätzen und vorherzusagen. Dabei profitieren speziell diese Fälle von einem übergeordneten KI-Entscheidungsmodell, welches die einzelnen Erkenntnisse der jeweiligen Teammitglieder zu aggregieren weiß, um dann zu einem gemeinsamen Ergebnis zu kommen. Es ist also nicht zwangsläufig so, dass der Mensch als kontrollierende Instanz immer ein Garant für ein optimales Ergebnis ist. Speziell in Fällen kollektiver Intelligenz und in Vorhersagemärkten kann es hilfreich sein, ein KI-Modell einzusetzen.

Der Bereich der Mensch-Maschine-Interaktion ist also weder ein gelöstes Forschungsfeld, noch können wir davon ausgehen, dass eine solche Interaktion – soll sie erfolgreich sein – genauso strukturiert sein wird, wie wir das von rein menschlichen Teams kennen. Klar ist allerdings, wenn man sich die erfolgreichen Mensch-Maschine-Tandems anschaut, dass hier Erfolge zu erzielen sind, die einen wünschenswerten Weg in eine zunehmend automatisierte Zukunft weisen.

Literaturverzeichnis

Canonico, L. B. (2019), Human-Machine Teamwork: An Exploration of Multi-Agent Systems, Team, Cognition, and Collective Intelligence. (Dissertation. 2490, Human-Centered Computing), Presented to the Graduate School of Clemson University, https://tigerprints.clemson.edu/cgi/viewcontent.cgi?article=3495&context=all_dissertations

Carrol, M. (2019), On the Utility of Learning about Humans for Human-AI Coordination, [online], https://arxiv.org/abs/1910.05789

Hipp, J., Flotte, T., Monaco, J., Cheng, J., Madabhushi, A., Yagi, Y., Rodriguez-Canales, J., Emmert-Buck, M., Dugan, M. C., Hewitt, S., et al. (2011). Computer aided diagnostic tools aim to empower rather than replace pathologists: Lessons learned from computational chess. Journal of pathology informatics, 2.

Holzinger, A. ( 2016), Interactive machine learning for health informatics: when do we need the human-in-the-loop?, Brain Inf. 3, 119–131, [online], https://doi.org/10.1007/s40708-016-0042-6

McNeese, M. (2005), The Neocities Simulation: Understanding the Design and Experimental Methodology Used to Develop a Team Emergency Management Simulation, [online], https://journals.sagepub.com/doi/10.1177/154193120504900380

Nature 603, 280–283 (09.03.2022), Restoring and attributing ancient texts using deep neural networks, [online], https://doi.org/10.1038/s41586-022-04448-z

Surowiecki J. (2004) The wisdom of crowds: why the many are smarter than the few and how collective wisdom shapes business, economies, societies, and nations, New York, Little, Brown Book Group

Schelble, B. (2020), Designing Human-Autonomy Teaming Experiments Through Reinforcement Learning, Proceedings of the Human Factors and Ergonomics Society Annual Meeting

Thomson (2010), Clive Thompson on the Cyborg Advantage, [online], https://www.wired.com/2010/03/st-thompson-cyborgs/

 

Wang, D. (2016), Deep Learning for Identifying Metastatic Breast Cancer, [online], https://arxiv.org/abs/1606.05718

Martin Rückert ist Chief Artificial Intelligence Officer bei Diamant Software, dem Spezialisten für digitalisierte und automatisierte Rechnungswesen- und Controlling-Software. Dort verbindet er aktuelle Ergebnisse der KI-Grundlagenforschung mit der praktischen Anwendung.

Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.

28413

share

Artikel teilen

Top Artikel

Ähnliche Artikel