Einsatz von KI in Realtime: Nicht nur für die Großen

In mittleren und kleinen Unternehmen hinkt der KI-Einsatz der Nutzung großer Unternehmen weit hinterher. Die Gründe dafür sowie Lösungsansätze erläutert der KI-/ML-Experte Naren Narendran, Chief Scientist bei Aerospike. Er erläutert die Chancen, die sich aktuell durch Small Language Models, Retrieval-Augmented Generation (RAG) und Vektordatenbanken bieten – sowohl für den Mittelstand als auch für das Klima.
Interview von DIGITALE WELT Magazin
10. Oktober 2024
Interviewpartner
Interviewpartner

Einsatz von KI in Realtime: Nicht nur für die Großen

Durch den enormen Bedarf an Rechenleistung ist das Entwickeln von KI-Modellen noch ein Privileg weniger Big Player. Ließe sich das ändern?

Narendran: Eine der großen Herausforderungen in Verbindung mit KI ist die Verwendung der Large Language Models (LLMs). LLMs arbeiten mit Dutzenden oder Hunderten von Milliarden an Parametern. Die Ausführung eines LLM erfordert daher unglaubliche Mengen an Rechenkapazitäten – und noch mehr, um sie zu erstellen, sie aktuell zu halten und weiter zu trainieren. Deshalb können Large Language Models derzeit nur von großen Cloud-Anbietern oder Unternehmen mit sehr umfangreichen Ressourcen erstellt werden. Und damit sind sie den meisten kleineren Unternehmen nicht zugänglich.

Ein möglicher Ansatzpunkt, dieses Problem zu lösen, wäre die Verwendung von Small Language Models (SLMs). Diese konzentrieren sich auf einen abgegrenzten Wissensbereich und benötigen daher weniger Energie für Entwicklung und Ausführung. So könnten für bestimmte Aufgaben maßgeschneiderte Modelle entwickelt werden, mit weit weniger Parametern als sie die heutigen großen LLMs verwenden. Und das bei einem deutlich geringeren Verbrauch von Rechenkapazität. In vielen Fällen kann der Einsatz eines SLM sogar effektiver sein, weil es eben innerhalb eines bestimmten Bereichs nur spezielle Aufgaben übernimmt.

 

Welche Branchen setzen bereits verstärkt auf Realtime-KI und weshalb?

Narendran: Branchen, in denen kürzere Reaktionszeiten direkt höhere Erträge bedeuten, profitieren am meisten von Künstlicher Intelligenz und Machine Learning (ML). Dies ist vor allem im Finanzwesen der Fall, wo schnelle Entscheidungen erforderlich sind, um die besten Ergebnisse zu erzielen. Gleiches gilt für die Betrugserkennung, wo im entscheidenden Moment umgehend gehandelt werden muss. In beiden Bereichen kam KI schon früh zum Einsatz.

Unternehmen wie PayPal nutzen beispielsweise einen Echtzeit-Datenbankcluster, um ihre Systeme zur Betrugserkennung zu betreiben. Hier gilt es in Sekundenbruchteilen zu entscheiden, ob bestimmte Transaktionen genehmigt werden sollen oder nicht. Auch in anderen Bereichen sind Echtzeitanwendungen auf dem Vormarsch. Dazu zählen zum Beispiel autonom fahrende Autos. Diese müssen sofort auf veränderte Straßenbedingungen oder unerwartete Hindernisse reagieren können.

Darüber hinaus hat sich KI in denjenigen Branchen rasch durchgesetzt, die hyperpersonalisierte Angebote für ihre Nutzer bieten wollen, indem sie auf der Grundlage riesiger Datenmengen schnell Antworten liefern. Anstatt dafür auf allgemeine Statistiken zu setzen, lassen sich mit Hyperpersonalisierung sehr spezifisch auf den Fragenden zugeschnittene Antworten generieren. Dafür wird nicht das User-Verhalten des letzten Jahres oder Monats herangezogen, sondern ein äußerst spezifischer Kontext aus der aller-jüngsten Vergangenheit. Dieser umfasst Daten über:

 

·       Was hat ein Nutzer oder eine Nutzerin in den letzten zwei Minuten getan?

·       Wie interagierte er oder sie mit dem System?

·       Wonach hat derselbe User vor drei Stunden gesucht?

 

Mit Hilfe von Echtzeitdaten lassen sich heute weitaus spezifischere Empfehlungen für die Anwenderinnen und Anwender erstellen. Bisher waren dagegen aggregierte Personalisierungstechniken die Norm. Sie lieferten eine weitgefasste statistische Sicht auf das Gesamtverhalten. Mit dem Einführen von Vektordatenbanken haben wir nun die Möglichkeit, individuellere Daten zu erfassen und in die KI- und ML-Pipelines einzuspeisen.

Das Verhalten eines jeden Nutzers lässt sich heute granular verfolgen, selbst über längere Zeiträume hinweg. Hyperpersonalisiertes Computing öffnet die Tür zu riesigen neuen Datenmengen, die jedoch wiederum zusätzliche Datenschutz- und Sicherheitsüberlegungen erfordern.

 

Welche Möglichkeiten zur Ressourcenoptimierung sehen Sie im Bereich der Technologie?

Narendran: Der wachsende Datenbedarf von Echtzeit-Anwendungen erfordert Technologien, welche die Speicher- und Kosteneffizienz verbessern. Hybride Speicherarchitekturen (Hybrid Memory Architectures, HMA) eignen sich hervorragend, um Daten effizienter zu speichern und abzufragen. Denn HMA kombiniert In-Memory-Indizierung mit direkten Operationen auf SSD-Speichern – für eine schnelle Datenverarbeitung zu wesentlich geringeren Kosten als bei reinen In-Memory- oder Caching-Lösungen. Damit lässt sich die Anzahl der benötigten Server um bis zu 80 Prozent reduzieren, was unmittelbar zu einem geringeren Energieverbrauch und CO₂-Ausstoß führt.

Dies verstärkt die Anstrengungen der Rechenzentren, den Ressourcenverbrauch insgesamt zu reduzieren, indem sie auf erneuerbare Energien wie Solar und Wind sowie auf innovative Kühltechnologien setzen, die weniger Wasser und Energie verbrauchen.

 

Welche Rolle spielt Retrieval-Augmented Generation in den von Ihnen genannten Branchen?

Narendran: Large Language Models bilden die Grundlage für generative KI-Tools. Sie werden mit riesigen Datenmengen trainiert. Um Kontext hinzuzufügen und so die Ausgabequalität von LLM-basierten Systemen zu verbessern, braucht es Retrieval-Augmented Generation (RAG). Denn RAG greift außerhalb der Trainingsdaten des LLMs auf verlässliche, externe Wissensquellen zu.

Ohne RAG beantwortet ein LLM Fragestellungen lediglich auf Basis der Daten, mit denen es trainiert wurde beziehungsweise basierend auf dem, was es bereits gelernt hat. Mit RAG werden nun die Informationen der externen Quellen zusammen mit der Benutzeranfrage an das LLM übermittelt. Und dieses generiert aus den neuen Daten und seinen Trainingsdaten die Antwort für den User oder die Userin. Damit erweitert Retrieval-Augmented Generation die ohnehin schon leistungsstarken LLMs um zusätzliches Wissen. Ganz ohne, dass das Modell dafür neu trainiert werden muss. Dieser Ansatz ist daher nicht nur kostensparend, er liefert vor allem auch deutlich bessere Ergebnisse.

In diesem Zusammenhang spielen Vektoren eine zentrale Rolle für das Erfassen und Nutzen von Kontext. Denn RAG bedient sich externer Daten aus unterschiedlichen Quellen wie beispielsweise aus Datenbanken oder Dokumentenablagen. Da diese Daten in unterschiedlichsten Formaten vorliegen können, haben sich das Kodieren als mehrdimensionale Vektoren und das Speichern in einer Vektordatenbank bewährt. Vektordatenbanken sind äußerst performant und nutzen zum Durchsuchen der Informationen spezielle Algorithmen. So meistern sie selbst komplexe Zusammenhänge wie semantische Suchen, kontextbezogene Bild- und Texterkennung oder die Suche nach ähnlichen Assets in Millisekunden.

 

Datendiebstahl ist für alle ein großes Thema. Sind Unternehmen, die KI einsetzen, stärker gefährdet?

Narendran: Je mehr Daten ein Unternehmen hat, desto höher ist sein Risikofaktor. Der Finanz- und Bankensektor war schon immer ein Ziel. Aber jetzt ist das Potenzial für den Verlust sensibler Daten dramatisch höher. Denn branchenübergreifend speichern immer mehr Unternehmen große Mengen an Benutzerdaten, um ihre KI-/ML-Workflows zu steuern. Wodurch das theoretische Risiko für Daten-Leaks steigt.

Hinzu kommt: Da KI und ML derzeit so angesagt sind, herrscht in diesem Bereich ein intensiver Wettbewerb. Verletzungen des geistigen Eigentums sind damit umso wahrscheinlicher, weil Kriminelle die Unternehmen ins Visier nehmen und mit unethischen Mitteln versuchen, aus deren geistigem Eigentum Kapital zu schlagen.

 

Wie wird sich die KI-Technologie in den kommenden Jahren verändern?

Narendran: Bis 2030 werden wir eine Verschiebung hin zu Modellen mit einem engeren Fokus erleben. Heute will noch jeder auf den neuesten LLM-Zug aufspringen, obwohl LLMs unglaublich ressourcenintensiv sind. Wie ich bereits erwähnt habe, sind diese Modelle nicht für jeden nutzbar. Daher werden LLMs vereinfacht werden, sodass sie weniger Ressourcen benötigen und leichter zugänglich sind.

Und auch wenn LLMs im letzten Jahr viel Aufmerksamkeit auf sich gezogen haben, sind sie sind nur ein Element der KI-Welt. Allein sind sie nicht in der Lage, in Unternehmen Aufgaben zu übernehmen. Dazu braucht es noch viel mehr, die Entwicklungen gehen meines Erachtens in diese Richtung.

Darüber hinaus werden wir in wenigen Jahren in Bezug auf Vektoren für die semantische Suche und andere eher „klassische“ Aspekte der KI und des ML viel weiter fortgeschritten sein. Die Nutzung von Vektoren steht ja aktuell noch ganz am Anfang, sei es im Bereich der neuen, generativen KI oder im Bereich des klassischen ML. Vektoren gibt es nicht out of the box und sie sind keine einfache Lösung, die man mir nichts, dir nichts auf vorhandene KI- oder ML-Programme draufsetzt. Mit der Zeit aber werden Vektoren bekannter und breiter eingesetzt werden. Dann wird es spezielle Software für technisch weniger versierte Teams geben, um Vektoren einfacher anwenden zu können.

Im Hier und Heute geht es dagegen für die Unternehmen darum, ihre Dateninfrastruktur auf die Geschwindigkeit, das Volumen und die Leistung vorzubereiten, die für den Erfolg in dieser neuen Welt nötig sind.

Interview geführt durch:

Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.

49076

share

Artikel teilen

Top Artikel

Ähnliche Artikel