Hey Computer, mach mal. Besser!

bei

 / 2. October. 2020

Computer mit Künstlicher Intelligenz können viel. Häufig scheint es, als könnte diese Kombination sogar alles was, wir Menschen können und zu dem auch noch besser. Ist das so?

Wie so oft kann ist eine einfache Schwarz-/Weiß-Sicht keine überzeugende Antwort liefern. Hier eine Analyse.

Ein kurzer Rückblick

Die ersten Erwähnungen über die Möglichkeit menschliches Denken und Verhalten zu automatisieren sind schon deutlich älter als das akademische Fachgebiet der Künstlichen Intelligenz. Hierfür gilt die Darthmouth Conference [1] Konferenz 1956 als Gründungsveranstaltung. Als früheste Quelle für „Intelligente Maschinen“ wird häufig L’Homme Machine von Julien Offray de la Mettrie [2] genannt und auch auf den Laplace’scher Dämon [3] hingewiesen. In dieser Vorstellung geschieht alles im Universum nach Regeln, einem mathematischen Weltgleichungssystem, dieses schließt auch den Menschen, sein Denken und seine Intelligenz ein.

Mechanische Automatisierung wurde Antrieb der Industrialisierung. Im Bereich des Denkens, Lernens und der geistigen Arbeit begann die Automatisierung aber offensichtlich erst viel später – trotz der theoretischen Erkenntnisse. Mathematiker und Computer-Wissenschaftler haben Modelle von lernenden Systemen erdacht und sogar die Idee, die Funktionsweise des Gehirns nachzuahmen: Künstliche Neuronale Netze (KNN).

Die Entwicklung ging weiter und es gab – wie bei vielen Technologien – Höhen und Tiefen. Vor den selbstlernenden KIs entstanden „von Hand“ programmierte Expertensysteme; zum Beispiel in der Erdbebenvorhersage oder der Hochwasservorhersage. Hier wurde Wissen in Software und teilweise in Hardware gegossen. Auch diese Systeme zählen ebenso wie Fuzzy-Logik zu den KI-Techniken. Im Unterschied zu Künstlichen Neuronalen Netzen und genetischen oder evolutionären Algorithmen basieren die auf Regeln und Fuzzy-Logik implementierten KI-Systeme auf dem direkt umgesetzten Wissen, sind also wissensbasierte Systeme, während die KNN und Genetische Algorithmen lernende Systeme sind.

Die Systeme haben schon erhebliche Beiträge geleistet, die Menschen nicht nur bei stupider, sondern auch bei anspruchsvoller Arbeit technisch und automatisiert zu unterstützen. Dabei imitieren diese Systeme auf unterschiedliche Art und Weise menschliches Verhalten, so dass die Menschen entlastet werden und sich komplexeren Arbeiten widmen können.

Technische Systeme, die menschliches Verhalten nachahmen oder imitieren, werden als Künstliche Intelligenz bezeichnet. Diese Definition ist eine von vielen und keine ist ganz genau. Da diese Systeme für spezielle Aufgaben gebaut werden und uns Menschen hier unterstützen, bevorzugen wir bei IBM in Abgrenzung zur Artificial Intelligence (AI) den Begriff Augmented (unterstützende, erweiterte) Intelligenz oder auch Komplementäre Intelligenz. Damit kommt besser und deutlicher zum Ausdruck, dass KI-Systeme heute die menschliche Intelligenz in speziellen Aufgaben unterstützen und ergänzen. Nicht mehr, aber auch nicht weniger!

Entwicklung heute

Seit den 2010er Jahren verlagert sich der Schwerpunkt von implementierten wissensbasierten Expertensystemen mehr und mehr zu lernenden Expertensystemen. Die Entwicklung der Algorithmen für Machine Learning macht große Fortschritte. Spätestens mit Einführung von Entwicklungswerkzeugen in Form von frei verfügbaren Frameworks für verschiedene Programmiersprachen (Tensorflow, pyTorch, yolo, …) seit etwa 2016/2017, beteiligen sich sehr viele Entwickler daran, Maschinen das Lernen beizubringen. Die notwendige Rechenleistung steht unter dem Schreibtisch in Form einer ordentlichen Graphikkarte oder kommt aus der Cloud, denn auch dort ist compute power günstig zu haben.

Die große Beteiligung und das immense Interesse an den Themen Machine Learning und Deep Learning führt zu weiteren Erfolgen bei Systemen mit Komplementärer Intelligenz. Einige Beispiele:

      • Es werden inzwischen Gesichter nicht nur im stehenden Bild, sondern im Bewegtbild erkannt und zusätzlich auch noch recht zuverlässig Geschlecht, Alter und Gefühlsausdruck ermittelt.
      • Die Gesichtsidentifikation [4] eignet sich inzwischen zur (Ent-)Sicherung von Computern und SmartPhones und arbeitet sogar mit hoher Zuverlässigkeit in der Echtzeitverarbeitung.
      • Generative Adversarial Networks (GAN) erzeugen täuschend echte Gesichter [5], Bilderimitate bestimmter Maler, Musik bestimmter Komponisten. Und auch Texte [6], die nicht einfach von durch Menschen erstellte Werke zu unterscheiden sind.
      • Im Bereich Natural Language Processing (NLP) werden Stimmungen erkannt, Inhaltsanalysen erstellt und Fragen beantwortet. Möglich sind Übersetzungen von komplexen Texten in viele Sprachen – nicht nur technisch und grammatikalisch richtig, sondern, ebenfalls und wichtiger, semantisch korrekt. Selbst Rotwelsch und Gang-Sprache wird verstanden und kann analysiert und übersetzt Die Fähigkeiten hier gehen bis zum Debattieren [7] zwischen Mensch und Maschine.
      • Ton- und Soundanalysen liefern nicht nur die erkannten Musiktitel, sondern erkennen auch sich anbahnende Defekte in Transportbändern, Lagern, Motoren und helfen dabei Schäden zu vermeiden. Auch sind hier Stimmungsanalyse und Personenidentifikation inzwischen eher handelsüblich und commodity als innovativ.

Die Liste ist nicht vollständig und es gibt viele Bereiche in denen KI-System uns Menschen unterstützen und immer besser werden. Hier scheinen die KI-Systeme die menschlichen Fähigkeiten zu übertreffen und oft tun sie das tatsächlich auch. In mindestens drei Aspekten ist das sicher:

  1. Bei der Geschwindigkeit, mit der sehr großen Datenmengen bearbeitet werden. Wir Menschen haben leider schon bei großen Tabellenkalkulationen Schwierigkeiten und mehrere hundert Sensorsignale pro Sekunden zu verarbeiten überfordert uns sofort.
  2. In der Ausdauer, die für die Arbeit zur Verfügung steht und damit auch in der Skalierbarkeit. Pausen, Schlaf, Essen und Ablenkung sind für uns Menschen lebensnotwendig.
  3. Bei der Wiederholbarkeit/Reproduzierbarkeit der Ergebnisse bei gleicher/identischer Eingabe. Wir Menschen unterliegen Stimmungsschwankungen und äußeren Einflüssen durch unser soziales Umfeld, Familie, Freunde etc., die unsere Entscheidungen oft beeinflussen.

Die Aufforderung: Hey Computer, mach mal. Besser! scheint nur folgerichtig.

Wirklich Besser

Reichen diese drei Aspekte wirklich, damit die Leistungen von KI-Systemen immer als besser gelten als die von uns Menschen? Interpretieren wir nicht zu viel in die Ergebnisse hinein und erwarten zu viel?

Wenn ich die digitale Bildersammlung, die sich auf meinem Computer befindet, nach Familienmitgliedern sortieren und auch noch Bildbeschreibungen erzeugen lasse, ist die Maschine schneller fertig als ich und in Bezug auf die Familienmitglieder auch schon sehr gut. Bei den Bildbeschreibungen …​ naja. Ich weiß dann was auf dem Bild ist, aber hilft mir das? Ich kann natürlich versuchen, das System weiter zu trainieren und dabei eine Verbesserung zu erreichen. Für die Familienmitglieder ist das einfach und kann auch als vorurteilsfrei gelten. Das Problem ist zwar komplex (Gesichtserkennung und Identifizierung), aber übersichtlich, da selbst große Familien doch überschaubar bleiben. Bildbeschreibungen sind hier schwieriger zu erstellen, denn zum einen ist die Anzahl verschiedener möglicher Objekte in einem Bild um Größenordnungen höher als die der Familienmitglieder auf dem Bild. Und zum anderen reicht es für eine Bildunterschrift oft nicht, die Objekte oder Szenen zu erkennen, sondern diese müssen auch in einen Zusammenhang (Kontext) gebracht werden, um eine sinnvolle oder aussagekräftige Zusammenfassung schreiben zu können.

Der erste Teil, die Objekt-Segmentierung und -erkennung, ist heute schon sehr gut verstanden und implementiert. Der zweite Teil, den Kontext herzustellen, ist offensichtlich von der Art wie, wo und wann ich Bilder mache, abhängig:

      • Ein Fahrrad mit Satteltaschen bedeutet? Fahrt zur Arbeit, Campingurlaub, Familienausflug, Wochenendeinkauf?
      • Ein Londoner Bus bedeutet? Dienstreise, Urlaub?
      • Hochzeitsgäste und Familienmitglieder? Meine Hochzeit, die eines Familienmitglieds oder die von Freunden der Familie?

und so fort. Hier wird deutlich, dass ein KI-System zwar Ergebnisse liefern kann und natürlich auch richtige, aber sind die für mich und meine Bildersammlung hilfreich? Wenn ich das System für mich trainiere, fließen meine Vorlieben ein und die Antworten werden besser zu mir passen. Vermutlich aber nicht zu einer sehr, sehr großen Zahl anderer Hobby- und Profifotografen.

Es wird deutlich, dass das Thema Kontext die große Herausforderung ist.

Kontext!

Woher haben wir unseren Kontext, wenn wir Entscheidungen treffen, Dinge sortieren, einordnen oder bezeichnen? Menschen greifen auf ihr erlerntes Wissen, ihre Erfahrungen und Wahrgenommenes zurück, setzen das in erstaunlich kurzer Zeit in Zusammenhang und bilden einen glaubwürdigen und in sich konsistenten Kontext. Dieser dient dann als Rahmen für die Beantwortung der aktuellen Frage, zur Lösung des Problems bzw. zur Einschätzung der Situation. Der Kontext ist offensichtlich ein individueller Rahmen, da jeder Mensch auf eine persönliche Historie zurückblickt. Daher fallen Antworten auf Fragen und Einschätzungen unterschiedlich aus – in vielen Fällen sogar sehr unterschiedlich. Selbst bei axiomatischen Grundwahrheiten, und bei auf diesen aufbauenden und bewiesenen Tatsachen, scheiden sich manche Geister und es werden Vorurteile und Falsches verbreitet. Als Beispiele nenne ich hier:

      • Das Benutzen von logarithmischen Skalen bei der Darstellung von exponentiellem Wachstum dient nicht der Verschleierung und Verharmlosung, sondern bietet die Möglichkeit einer sinnvollen grafischen Darstellung schnell wachsender Werte in einem Schaubild.
      • Wenn eine Aussage für alle Elemente einer Gruppe gelten soll, reicht es als Beweis nicht aus, es für fast alle oder viele Elemente zu zeigen. Aber es reicht ein Element zu finden, für welches die Aussage nicht zutrifft, um die Aussage als falsch zu bezeichnen. Alle Primzahlen sind ungerade?
      • Wahrscheinlichkeiten: In einem Krankenhaus werden Jungen und Mädchen offensichtlich in einer zufälligen Reihenfolge geboren. Und im Großen und Ganzen ist die Wahrscheinlichkeit für die Geburt eines Mädchens genauso groß wie die für die Geburt eines Jungen. Betrachten wir jetzt drei möglichen Folgen von Geburten:
            • JJJJMMMM
            • MMMMMMMM
            • JMJJMJJM

Sind diese Folgen gleich wahrscheinlich? Die intuitive Antwort – „Natürlich nicht!“ ist falsch.

Diese fehlerhaften Antworten und Einschätzungen folgen aus der Komplexität des Themas. Eine hohe Komplexität bedarf eines enormen Kraftakts und erheblicher Anstrengungen im (Nach-)Denken, um zu gesicherten Ergebnissen zu kommen. Wir sind als Menschen aber sparsam mit unseren bescheidenen Ressourcen (oder auch einfach faul) und nutzen gerne jede sich bietende Abkürzung und Intuition. Leider führt das nicht selten zu Fehleinschätzungen und falschen Antworten. Versuchen Sie es selbst und beantworten schnell diese einfache Frage:

Ein Ball und ein Schläger kosten zusammen ein Euro und zehn Cent. Der Ball kostet zehn Cent mehr als der Schläger. Was kostet der Schläger?

In „Schnelles Denken, langsames Denken“ [8] von Daniel Kahnemann [9] wird die Thematik der Bequemlichkeit beim Denken ausführlich und unterhaltsam diskutiert.

Woher bekommen KI-Systeme ihren Kontext? Bei ausprogrammierten Expertensystemen ist das offensichtlich: Von der Programmiererin und der Expertin, die ihr Wissen beigesteuert haben. Am Ende der Entwicklung existiert ein System, welches bei der Eingabe A das Ergebnis Z liefert und das wiederholbar zuverlässig ist, da die Regeln für die Abbildung von A nach Z feststehen. Werden während der Entwicklung Fehler korrigiert, passiert das in den Regeln und für Experten und Entwickler ist im Sourcecode nachvollziehbar wie aus A das Ergebnis X ermittelt wird.

Bei KI-Systemen mit Machine Learning Komponenten wird der Kontext wie beim Menschen gelernt bzw. gelehrt. Eine Programmiererin und/oder Data Scientistin gibt ein Lernmodel vor, beschreibt also algorithmisch wie das KI-System lernt. Verschiedene Lernsysteme gibt es auch beim Menschen: Fakten auswendig lernen, lesen und selbstständig erschließen, angeleitet lernen oder ausprobieren. Die Expertin entscheidet hier mit ihrer Erfahrung über das „Wie“, um einem System etwas beizubringen, ein Problem lösen zu lassen. Die gleiche Expertin oder besser eine Fachfrau entscheidet dann „womit“ gelernt bzw. gelehrt wird. Also die Lehrinhalte, das Curriculum, um im Vergleich zu bleiben. Sie entscheidet, was auf den Karteikarten steht, welche Texte gelesen werden und was auf welchen Bildern zu sehen ist. Ebenfalls wird festgelegt, was beim Probieren positiv bzw. negativ bewertet wird. Wie bei uns Menschen wird das Können, das Wissen, der Kontext offensichtlich durch die Lehrenden bestimmt. Wir Menschen interagieren mit vielen „Lehrern“ und „Lehrerinnen“. Daher ist unser Input vielfältig. Wir mischen Kontexte, sind in der Lage in einem Bereich Gelerntes auf einen anderen zu übertragen. Die Mathematik ist hier ein sehr gutes Beispiel, wie aus Abstraktem Konkretes in vielen Bereichen wird. Ein anderes Beispiel ist dieses abstrakte Bild:

Abbildung 1: Was ist dargestellt?

Reden wir über Jahrmärkte erkennen wir auf dem Bild oben Luftballons; wenn wir über Wälder sprechen, könnten Bäume dargestellt sein. Ist das Thema Menschengruppen assoziieren wir sicher schnell eine Familie mit dem Bild. Es ist immer das gleiche Bild, aber der Inhalt ist je nach Kontext ein anderer.

Wie eingangs erwähnt, lösen KI-System heute sehr viele spezielle Probleme, aber Kontextwechsel sind einer Maschine sehr schwer beizubringen. Bei den beschriebenen speziellen Problemen, die durch eine Maschine gut lösbar sind, sind die Systeme schnell, ausdauernd und produzieren nach beendeter Lernphase ebenfalls zuverlässig bei Eingabe B die Ausgabe Y. In einem solchen System ist die Abbildung von der Eingabe zum Ergebnis ebenfalls eindeutig. Bei einem Fehler kann aber die Expertin nicht leicht die fehlerhafte Regel identifizieren, weil diese sich üblicherweise nicht in einer falschen Zeile Sourcecode manifestiert, sondern ein während des Trainings berechneter Parameter, Koeffizient, ein Entscheidungsgewicht oder eine von den Trainingsdaten abhängige Wahrscheinlichkeit ist. Eine Korrektur bedeutet also oft: Neu oder mehr lernen! Und wie schwer und anstrengend neu lernen ist, wissen wir Menschen nur zu gut: Versuchen Sie mal Ihre Jacke mit dem nicht-üblichen Arm zuerst anzuziehen! Zudem muss die Lehrerin ermitteln, was denn falsch gelehrt wurde. Denn mit den gleichen Lerninhalten wird sich nichts ändern. Das heißt also: die Lerninhalte untersuchen!

Die Punkte machen deutlich, dass es nicht einfach ist, einer Maschine etwas beizubringen; nicht einfacher als einem Menschen. Auch wird deutlich, dass, wie in der menschlichen Ausbildung, viel Wert auf die Lerninhalte und Daten gelegt werden muss, ebenso wie gelehrt bzw. gelernt wird. Der äußere Einfluss, den das Trainerteam auf das KI-System hat, ist groß. Vorlieben, Voreingenommenheit und Verzerrungen (Bias) spiegeln sich leicht im KI-System wider. Selten ist das aber gewünscht: Bei meiner persönlichen Bilderbeschriftung möchte ich meine Vorlieben sehen, bei einem Flugmanöver eines Urlaubsfliegers verzichten sicher viele Passagiere gerne auf meine Vorlieben für Achterbahnfahrten.

FAZIT

Computer, insbesondere KI-Systeme, können heute schon viele Dinge besser im Sinne von schneller, ausdauernder und mit konstanter Qualität. Systeme, die lernen und trainiert werden, unterliegen den gleichen Herausforderungen wie Menschen:

  1. Sie werden beeinflusst und „erben“/lernen die Voreingenommenheiten der Trainer oder die Verzerrungen (Bias) in Daten. Dies muss regelmäßig überprüft werden.
  2. Ebenso müssen die Nachvollziehbarkeit und Transparenz von Entscheidungen in lernenden Systemen sichergestellt werden.
  3. Schließlich sind diese KI-Systeme auf spezielle Problemstellungen trainiert und können den Kontext nicht einfach wechseln.

Bis also ein Computer „mach mal“ kann und das auch noch besser, haben Menschen vorher eine aufwendige und verantwortungsvolle Arbeit zu erledigen!

Die KI Community wird auf verschiedene Weise bei der Entwicklung und den Einsatz von transparenter und verzerrungsfreier KI unterstützt. Zum Beispiel mit dem OpenSource Toolkit AI Fairness 360 [10], einem Werkzeugkasten für Data Scientists, der es während der Modellerstellung erlaubt, ungewollte Verzerrungen und Biases zu identifizieren und aus den Modellen zu entfernen. Es gibt noch eine Reihe weiterer Werkzeuge, aber das ist ein anderer Artikel.

 

Über den Autor:


Mischa Soujon verfügt über mehr als 20 Jahre IT-Erfahrung. Nach seinem Mathematik-Studium an der Uni Bremen begann er 1998 als SW-Entwickler. Er hat als IT-Architekt in vielen SW-Projekten gearbeitet und arbeitet jetzt im IBM Watson Center Munich als Lösungsarchitekt mit Kunden an Lösungen für Ihre Ideen.

 

Quellen und Referenzen

[1] https://de.wikipedia.org/wiki/Dartmouth_Conference

[2] https://de.wikipedia.org/wiki/Julien_Offray_de_La_Mettrie

[3] https://de.wikipedia.org/wiki/Laplacescher_Dämon

[4] Der Einsatz von Gesichtserkennungs- und Analysesoftware muss immer den akzeptierten ethischen Werten und Grundsätzen entsprechen (siehe auch (IBM CEO Arvind Krishna, aus: https://www.ibm.com/blogs/policy/facial-recognition-sunset-racial-justice-reforms/).

[5] https://openaccess.thecvf.com/content_CVPR_2019/papers/Karras_A_Style-Based_Generator_Architecture_for_Generative_Adversarial_Networks_CVPR_2019_paper.pdf

[6] https://ars.electronica.art/center/de/gpt2/

[7] https://www.research.ibm.com/artificial-intelligence/project-debater/

[8] https://de.wikipedia.org/wiki/Schnelles_Denken,_langsames_Denken

[9] https://de.wikipedia.org/wiki/Daniel_Kahneman

[10] https://github.com/Trusted-AI/AIF360