Wir kommunizieren in Texten. Das ist das Merkmal unserer Gesellschaft und war, kulturgeschichtlich gesehen, ein enormer Schritt, der vieler massiver Veränderungen bedurfte. Texte bestehen aus Wörtern, die einen Abstraktionsmechanismus durchlaufen haben. Ihr Ursprung ist in den meisten Fällen ein Bild oder eine bildliche Vorstellung eines Objekts, das sich in Form von Buchstaben verschriftlicht. Alte Schrifttypen, die Bildschriften verwandten, bezeugen heute noch, dass auch Schriftzeichen bildlichen Ursprungs sind.
Der Informatiker und LMU-Professor Dr. Björn Ommer hat mit seiner Machine Vision & Learning Arbeitsgruppe einen der leistungsfähigsten Algorithmen zur Bildsynthese entwickelt. Das neue KI-Modell trägt den Namen „Stable Diffusion“, benötigt keinen Hochleistungsrechner und ist für alle frei zugänglich. Die Idee dahinter: Durch Milliarden von Trainingsbildern hat das KI-Modell gelernt, aus einem Textinput ein Bild zu generieren. Man schreibe etwa: „Schnee, Straße, Bäume, Auto“. In wenigen Augenblicken werden die einzelnen Wörter zu einem brauchbaren Bild zusammengetragen. All das funktioniert mit einer herkömmlichen Grafikkarte und ohne Hochleistungsrechner – Stable Diffusion läuft heute schon als Plug-In in Gimp oder Photoshop.
„Ich möchte heute zu Ihnen über einen Umbruch sprechen, über einen Umbruch, der gerade jetzt stattfindet.“
Damit leitete Ommer seinen Vortrag zu Stable Diffusion auf der DIGICON 2022 ein. Was macht das KI-Modell so zukunftsträchtig und wie soll dieser Umbruch aussehen? Computer seien – und dahinter verberge sich ja ihr enormer Erfolgszug – heute vor allem nützliche Diener in der Archivierung von Daten und in der Generation von Text. Auf Bildebene sähe dies anders aus. Hier hapere es noch an der Geschwindigkeit. Dies sei grundlegend ein Kommunikationsproblem zwischen Mensch und Computer: Wir könnten heute dem Computer noch keinen direkten Gedanken mitteilen, der ihm sofort als Bild, also als sinnvolles Pixelgerüst, erscheine.
Stable Diffusion kann das, indem es eine Vielzahl an Bildern, die im Internet kursieren, berücksichtigt, um das gewünschte Bild zu kreieren. Dahinter steckt eine enorme Anzahl an Trainingsstunden. Was genauso funktioniert, ist eine Erweiterung von der Bild- hin zur Videoebene.
Letztlich geht es bei Stable Diffusion um generative KI. Diese Art der Künstlichen Intelligenz ist heute schon einsatzfähig, leistungsstark und vor allem vielseitig. Im Falle von Stable Diffusion ist es zusätzlich die Zugänglichkeit, die überzeugt: Der Algorithmus gehört keinem großen Tech-Unternehmen oder läuft nur etwa auf speziellen, leistungsstarken Rechnern.
„Diese vier Eigenschaften, die Sie hier bei Stable Diffusion sehen, waren einmal die Eigenschaften, die den Siegeszug des Personal Computers eingeleitet haben. Auch ähnlich dem PC werden diese vier Eigenschaften im Bereich der generativen KI eine Erfolgswelle einschlagen.“
Ein Grund dafür liege sicherlich auch an der Anzahl der Mitentwickler, die an Stable Diffusion beteiligt sind, denn alle, die den Algorithmus nutzen, sind potenzielle Entwickler und verbessern die Präzision und Leistungsfähigkeit von Stable Diffusion.
Und Stand heute lässt sich darüber sinnieren, ob selbst unsere alltägliche Art des digitalen Kommunizierens eine völlig andere sein wird. Vielleicht übernehmen Bilder immer mehr das Zepter in Chatportalen, da sie schneller und eindeutiger sind als bestimmte Textnachrichten? Wie wirkt sich das auf die Produktion von Werbungen oder bewegten Bilder, sprich Videos, aus? Vielleicht sind es ja ganz neue Möglichkeiten der Kreativität, die freigesetzt werden, wenn wir plötzlich direkt und schnell mit dem Computer in Bilder kommunizieren können?
Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.