Verborgene Fehler:
Wie wir KI-Systeme falsch bewerten
(und was wir dagegen tun können)
Herkömmliche Metriken wie „Genauigkeit“ versagen bei der Bewertung moderner KI. Dieser Artikel zeigt, warum alte Methoden zu verborgenen Fehlern wie Halluzinationen führen, und stellt einen neuen Ansatz vor: eine Kombination aus quantitativen Daten, der skalierten Bewertung durch „KI-Schiedsrichter“ (LLM-as-a-Judge) und der unverzichtbaren Aufsicht durch menschliche Fachexperten.
Verborgene Fehler: Wie wir KI-Systeme falsch bewerten (und was wir dagegen tun können)
Anwendungen wie ChatGPT & Co. sind aus dem privaten Alltag kaum mehr wegzudenken, aber auch im Unternehmenskontext ist KI auf dem Vormarsch: Bereits Ende 2024 ist KI bei mindestens 20 % aller Firmen im Einsatz und fester Bestandteil des Alltags. Oft findet man KI als Helfer in internen Chatsystemen, aber häufiger auch in der Automatisierung von Geschäftsprozessen wie beispielsweise Kundenservice.
Doch mit dem wachsenden Einsatz steigt auch der Druck: Wie gut ist unsere KI wirklich?
Die Frage scheint einfach. Doch im Zeitalter generativer KI ist sie zu einer der komplexesten Herausforderungen für Unternehmen geworden. Neue, kontextbezogene Metriken sind erforderlich, um Qualität, Korrektheit und Sicherheit zu bewerten. Dennoch verlassen sich viele auf veraltete Methoden mit potenziell kritischen Folgen. Wie lassen sich Large-Language-Models (LLMs) also sinnvoll evaluieren? Welche Ansätze haben sich in der Praxis bewährt?
Warum klassische Metriken wie Accuracy oder BLEU für LLMs ungeeignet sind:
In der „alten“ Welt der KI und Software war die Bewertung oft einfach. Ein Bilderkennungsmodell sollte eine Katze als „Katze“ klassifizieren. Die Genauigkeit (Accuracy) war ein klares Maß: Wie viel Prozent der Bilder wurden korrekt erkannt? Bei maschineller Übersetzung nutzte man Metriken, die die Ähnlichkeit einer maschinellen Übersetzung mit einer professionellen menschlichen Referenzübersetzung messen.
Das Problem? Generative KI hat keine einzelne „richtige“ Antwort. Fragen Sie ein LLM, eine E-Mail zu formulieren, gibt es unzählige gute Möglichkeiten. Eine Zusammenfassung kann auf verschiedene Weisen korrekt sein. Klassische Metriken scheitern hier, weil sie die kreative und semantische Vielfalt nicht erfassen können. Eine Antwort als „falsch“ zu markieren, nur weil sie nicht exakt mit einem vordefinierten Text übereinstimmt, ist, als würde man einen Aufsatz nur nach der Anzahl der verwendeten Schlüsselwörter benoten. Es verfehlt den Kern der Sache: die Qualität des Inhalts.
Typische Fehlerarten: Halluzination, Bias, Robustheitsschwächen:
Wenn wir LLMs bewerten, suchen wir nicht nach einer perfekten Wortübereinstimmung, sondern nach dem Fehlen spezifischer Fehler. Die häufigsten sind:
- Halluzinationen: Die KI erfindet Fakten, Zitate oder Quellen, die plausibel klingen, aber nicht existieren. Dies ist besonders gefährlich in Anwendungen, die auf Faktenwissen angewiesen sind (z. B. Rechts- oder Medizinberatung).
- Bias (Verzerrung): Das Modell reproduziert und verstärkt gesellschaftliche Vorurteile aus seinen Trainingsdaten. Fragt man nach Bildern von „einem CEO“, werden überwiegend Männer gezeigt.
- Robustheitsschwächen: Das Modell reagiert empfindlich auf kleinste Änderungen in der Eingabe. Eine Frage, die mit „Fasse den Text zusammen“ funktioniert, könnte bei „Gib mir die Kernaussagen des Textes“ eine viel schlechtere Antwort liefern.
- Toxizität und Sicherheit: Die KI generiert schädliche, unangemessene oder unsichere Inhalte, oft als Reaktion auf gezielte Angriffe (Jailbreaking).
Eine gute Evaluierungsstrategie muss darauf ausgelegt sein, genau diese Fehlerarten aufzudecken.
Quantitative vs. qualitative Evaluation – und warum beides nötig ist.
Eine moderne LLM-Bewertung besteht aus zwei komplementären Ansätzen:
- Quantitative Evaluation: Hier messen wir alles, was sich leicht in Zahlen fassen lässt. Dazu gehören Latenz (Wie schnell antwortet das System?), Kosten (Wie teuer ist eine Anfrage gemessen in Tokens?), Format-Treue (Hält sich die KI an vorgegebene Ausgabeformate?) oder automatisierte Scores für Aspekte wie Text-Toxizität.
- Qualitative Evaluation: Hier geht es um die inhaltliche Qualität, die sich nur schwer in einer einzigen Zahl ausdrücken lässt. Stimmt die Antwort mit einer bekannten Wissensquelle überein (Fakten-Treue)? Beantwortet sie die tatsächliche Absicht des Nutzers (Hilfreichkeit)? Ist die Sprache angemessen für den Anwendungsfall (Stil und Ton)?
Während quantitative Metriken leicht zu automatisieren sind, war qualitative Bewertung lange ein manueller, langsamer und teurer Prozess, der auf Fachexperten angewiesen war. Der entscheidende Wandel heute: Man kann leistungsfähige LLMs nutzen, um andere LLMs zu bewerten. Dieser „LLM-as-a-Judge“-Ansatz ermöglicht es, qualitative Bewertungen endlich zu skalieren.
Der skalierbare Experte: KI als Schiedsrichter:
Die Idee des „LLM-as-a-Judge“ (eine KI als Schiedsrichter) ist ebenso einfach wie wirkungsvoll: Anstatt einen menschlichen Experten jede einzelne KI-Antwort prüfen zu lassen, wird diese Aufgabe an ein besonders leistungsfähiges Basismodell (wie z. B. OpenAI o3) delegiert. Man kann sich vorstellen, dass eine erfahrene Lehrkraft die Arbeiten ihrer Schüler bewertet. Nur dass hier eine KI diese Rolle übernimmt.
Der Prozess sieht typischerweise so aus: Der KI-Schiedsrichter erhält die ursprüngliche Anfrage, die zu bewertende Antwort und einen klaren Kriterienkatalog (eine „Rubrik“). Anschließend wird er gebeten, eine Bewertung abzugeben. In der Praxis haben sich zwei Methoden etabliert:
- Bewertung nach Noten: Der Schiedsrichter bewertet eine einzelne Antwort auf einer Skala (z. B. 1 bis 5) anhand von Kriterien wie „Ist diese Antwort faktisch korrekt?“ oder „Ist der Ton professionell?“. Zusätzlich kann er eine textliche Begründung für seine Bewertung liefern, was die Nachvollziehbarkeit enorm erhöht.
- Paarweiser Vergleich: Dem Schiedsrichter werden zwei verschiedene Antworten auf dieselbe Frage vorgelegt (z. B. von Modell A und Modell B oder von zwei Versionen desselben Prompts). Er muss dann entscheiden, welche Antwort besser ist und warum. Dieser Ansatz ist oft einfacher und liefert stabilere Ergebnisse, da ein relativer Vergleich oft leichter fällt als eine absolute Benotung.
Durch diesen Ansatz können Unternehmen Tausende von Interaktionen automatisiert und nach konsistenten qualitativen Maßstäben bewerten, was manuell schlicht unmöglich wäre.
Die Grenzen der Automatisierung: Wo der Mensch unersetzlich bleibt:
Kann man einer KI blind vertrauen, wenn sie eine andere KI bewertet? Die klare Antwort lautet: Nein. Der LLM-as-a-Judge-Ansatz ist mächtig, aber nicht frei von systematischen Fehlern (Biases):
- Positions-Bias: Einige Modelle neigen dazu, die zuerst präsentierte Antwort im paarweisen Vergleich zu bevorzugen.
Verzerrung zur Ausführlichkeit: Längere, detailliertere Antworten werden oft als besser bewertet, selbst wenn sie weniger präzise sind. - Selbstbevorzugung: Es gibt Hinweise darauf, dass Modelle die Antworten von Modellen aus ihrer eigenen „Familie“ leicht bevorzugen.
Das Ziel ist daher nicht die vollständige Abschaffung menschlicher Expertise, sondern deren effektiverer Einsatz. Die Rolle des Fachexperten wandelt sich vom ausführenden Prüfer zum strategischen Kurator und Auditor.
Best Practices für die moderne KI-Bewertung:
Was bedeutet das konkret für die Praxis? Für Unternehmen, die generative KI verantwortungsvoll und wertschöpfend einsetzen wollen, ergeben sich daraus klare Handlungsempfehlungen:
- Der Mensch kuratiert, die KI skaliert: Fachexperten erstellen und pflegen ein sogenanntes „Golden Set“: Eine hochwertige Sammlung von repräsentativen Anfragen und idealen Antworten. Dieses Set dient als Benchmark. Gleichzeitig definieren die Experten die Bewertungskriterien (die Rubrik), nach denen die KI-Schiedsrichter später in großem Stil urteilen.
- Etablierung eines Audit-Prozesses: Kein automatisiertes System sollte ohne Aufsicht laufen. Domänenexperten müssen mit den Entwicklerteams zusammenarbeiten und regelmäßig Stichproben der KI-Bewertungen überprüfen. So wird nicht nur die Qualität der Anwendung, sondern auch die Zuverlässigkeit des Bewerters sichergestellt. Man kalibriert sozusagen den Kompass der KI.
- Einsatz eines hybriden Bewertungsmodells: Die robusteste Strategie ist eine Kombination. Quantitative Metriken liefern den schnellen Überblick. Skalierte LLM-Bewertungen decken die qualitative Breite ab. Und für die geschäftskritischsten oder komplexesten Fälle bleibt die gezielte manuelle Prüfung durch einen Menschen unerlässlich.
- Bewertungen als Kreislauf: Bewertung ist kein Selbstzweck. Die gewonnenen Erkenntnisse, ob von Mensch oder KI, müssen direkt in einen iterativen Verbesserungszyklus fließen. Schwachstellen in den Antworten führen zu besseren Prompts, optimierten Datenquellen oder der Wahl eines geeigneteren Modells.
Die Bewertung von LLMs ist längst mehr als ein technisches Detail. Sie entscheidet über den Erfolg. Die richtige Evaluierung ist der Schlüssel, um das Potenzial von KI-Systemen sicher und effektiv zu nutzen. Unternehmen sollten daher jetzt handeln: Modernisierung der Metriken, experimenteller Einsatz von KI-Schiedsrichtern und gezielte Einbeziehung von Domänenexperten, bevor verborgene Fehler zu einem teuren Problem werden.
Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.