Dieser Algorithmus spricht mehr als nur Worte: Eine völlig neue Art zu kommunizieren?

Künstliche Intelligenz ist treibende Kraft eines Umbruchs der Menschheitsgeschichte. Wie sieht dieser Wandel aus und was bedeuten die passierenden und antizipierten Veränderungen für das menschliche Selbstverständnis? Hier eine Zusammenfassung des DIGICON-Vortrags von LMU-Professor Dr. Björn Ommer, Entwickler der künstlichen Intelligenz "Stable Diffusion".
Von   Hannes Mittermaier   |  Doktorand und Lehrbeauftragter   |  LMU Munich
23. Dezember 2022

Wir kommunizieren in Texten. Das ist das Merkmal unserer Gesellschaft und war, kulturgeschichtlich gesehen, ein enormer Schritt, der vieler massiver Veränderungen bedurfte. Texte bestehen aus Wörtern, die einen Abstraktionsmechanismus durchlaufen haben. Ihr Ursprung ist in den meisten Fällen ein Bild oder eine bildliche Vorstellung eines Objekts, das sich in Form von Buchstaben verschriftlicht. Alte Schrifttypen, die Bildschriften verwandten, bezeugen heute noch, dass auch Schriftzeichen bildlichen Ursprungs sind.

Der Informatiker und LMU-Professor Dr. Björn Ommer hat mit seiner Machine Vision & Learning Arbeitsgruppe einen der leistungsfähigsten Algorithmen zur Bildsynthese entwickelt. Das neue KI-Modell trägt den Namen „Stable Diffusion“, benötigt keinen Hochleistungsrechner und ist für alle frei zugänglich. Die Idee dahinter: Durch Milliarden von Trainingsbildern hat das KI-Modell gelernt, aus einem Textinput ein Bild zu generieren. Man schreibe etwa: „Schnee, Straße, Bäume, Auto“. In wenigen Augenblicken werden die einzelnen Wörter zu einem brauchbaren Bild zusammengetragen. All das funktioniert mit einer herkömmlichen Grafikkarte und ohne Hochleistungsrechner – Stable Diffusion läuft heute schon als Plug-In in Gimp oder Photoshop.

„Ich möchte heute zu Ihnen über einen Umbruch sprechen, über einen Umbruch, der gerade jetzt stattfindet.“

Damit leitete Ommer seinen Vortrag zu Stable Diffusion auf der DIGICON 2022 ein. Was macht das KI-Modell so zukunftsträchtig und wie soll dieser Umbruch aussehen? Computer seien – und dahinter verberge sich ja ihr enormer Erfolgszug – heute vor allem nützliche Diener in der Archivierung von Daten und in der Generation von Text. Auf Bildebene sähe dies anders aus. Hier hapere es noch an der Geschwindigkeit. Dies sei grundlegend ein Kommunikationsproblem zwischen Mensch und Computer: Wir könnten heute dem Computer noch keinen direkten Gedanken mitteilen, der ihm sofort als Bild, also als sinnvolles Pixelgerüst, erscheine.

Stable Diffusion kann das, indem es eine Vielzahl an Bildern, die im Internet kursieren, berücksichtigt, um das gewünschte Bild zu kreieren. Dahinter steckt eine enorme Anzahl an Trainingsstunden. Was genauso funktioniert, ist eine Erweiterung von der Bild- hin zur Videoebene. 

Letztlich geht es bei Stable Diffusion um generative KI. Diese Art der Künstlichen Intelligenz ist heute schon einsatzfähig, leistungsstark und vor allem vielseitig. Im Falle von Stable Diffusion ist es zusätzlich die Zugänglichkeit, die überzeugt: Der Algorithmus gehört keinem großen Tech-Unternehmen oder läuft nur etwa auf speziellen, leistungsstarken Rechnern. 

„Diese vier Eigenschaften, die Sie hier bei Stable Diffusion sehen, waren einmal die Eigenschaften, die den Siegeszug des Personal Computers eingeleitet haben. Auch ähnlich dem PC werden diese vier Eigenschaften im Bereich der generativen KI eine Erfolgswelle einschlagen.“

Ein Grund dafür liege sicherlich auch an der Anzahl der Mitentwickler, die an Stable Diffusion beteiligt sind, denn alle, die den Algorithmus nutzen, sind potenzielle Entwickler und verbessern die Präzision und Leistungsfähigkeit von Stable Diffusion. 

Und Stand heute lässt sich darüber sinnieren, ob selbst unsere alltägliche Art des digitalen Kommunizierens eine völlig andere sein wird. Vielleicht übernehmen Bilder immer mehr das Zepter in Chatportalen, da sie schneller und eindeutiger sind als bestimmte Textnachrichten? Wie wirkt sich das auf die Produktion von Werbungen oder bewegten Bilder, sprich Videos, aus? Vielleicht sind es ja ganz neue Möglichkeiten der Kreativität, die freigesetzt werden, wenn wir plötzlich direkt und schnell mit dem Computer in Bilder kommunizieren können?

Hannes Mittermaier, geboren 1994 in Sterzing/Italien, seit 2013 in München lebend, schloss 2019 sein Master-Studium an der Ludwig-Maximilians-Universität in München in den Fächern Germanistik und Philosophie ab. Seit 2020 promoviert Mittermaier an der germanistischen Fakultät zu einer Arbeit, die sich mit der Rezeption der Sokrates-Figur im Zeitalter der deutschsprachigen Aufklärung beschäftigt. Damit einhergehend ist Mittermaier Lehrbeauftragter an der Ludwig-Maximilians-Universität. Aktuell hält er ein Proseminar zu Thomas Manns früher Novellistik. Unabhängig von seiner Promotion arbeitet Mittermaier seit September 2019 als Redakteur der ebenso von der Ludwig-Maximilians-Universität herausgegebenen Zeitung Digitale Welt. Darüber hinaus engagiert sich Mittermaier nebenberuflich als freier Musiker.

Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.

33668

share

Artikel teilen

Top Artikel

Ähnliche Artikel