Gefahr durch synthetische Stimmen: Mit KI gegen Voice Deepfakes

In derselben Geschwindigkeit, in der sich künstliche Intelligenz (KI) weiterentwickelt, werden auch die Bedrohungen durch KI immer stärker – zum Beispiel durch gefälschte Stimmen, sogenannte Voice Deepfakes. Das sind künstlich erzeugte Audioaufnahmen, die Stimmen von Menschen nachahmen. Wie lässt sich auf diese Gefahr reagieren? Genau mit der Technologie, die diese Bedrohungen mitbestimmt: mit KI.
Von   Ismet Koyun   |  CEO und Gründer   |  KOBIL Gruppe
21. Juli 2025

Gefahr durch synthetische Stimmen: Mit KI gegen Voice Deepfakes

 

In derselben Geschwindigkeit, in der sich künstliche Intelligenz (KI) weiterentwickelt, werden auch die Bedrohungen durch KI immer stärker – zum Beispiel durch gefälschte Stimmen, sogenannte Voice Deepfakes. Das sind künstlich erzeugte Audioaufnahmen, die Stimmen von Menschen nachahmen. Wie lässt sich auf diese Gefahr reagieren?

Stimmen zu fälschen, die täuschend echt klingen, ist inzwischen ohne viel Aufwand möglich. Nicht einmal tiefgreifendes technisches Know-how ist dafür erforderlich. Das machen sich Cyberkriminelle zunutze und bedienen sich dabei künstlicher Intelligenz: Nur ein paar Sekunden Audioaufnahmen reichen, damit die KI daraus die aufgenommene Stimme überzeugend imitieren kann. Solche Sprachaufnahmen sind leicht zugänglich – etwa über Sprachnachrichten, Online-Events mit Audio-Beiträgen oder öffentlich verfügbare Interviews.

 

Was es mit dem Enkeltrick auf sich hat

Voice Deepfakes sind heute leider an der Tagesordnung. Die Gefahr, die dadurch entsteht, ist real und sollte nicht unterschätzt werden. Ein klassisches Beispiel ist der Enkeltrick. Betrüger geben sich am Telefon als Enkel oder nahes Familienmitglied aus und bitten unter einem Vorwand um finanzielle Hilfe – etwa wegen eines vermeintlichen Unfalls oder einer dringenden Notlage. Mit KI-generierten Stimmen wirkt die Täuschung heute noch glaubhafter. Nicht nur für die ältere Generation wird es immer unmöglicher, KI-Stimmen von echten zu unterscheiden. Selbst engste Angehörige erkennen kaum noch, ob sie es wirklich mit der echten Person zu tun haben. So gelingt es Betrügern in vielen Fällen erschreckend einfach, am Telefon an Geld, Zugangsdaten oder Passwörter zu gelangen.

Auch für Unternehmen stellt der Identitätsdiebstahl inzwischen eine ernstzunehmende Gefahr dar. Immer wieder werden Cyberangriffe bekannt, bei denen sich Mitarbeitende von täuschend echten, synthetischen Stimmen in die Irre führen ließen – und in der Folge sensible Unternehmensinformationen oder sogar Geld weitergaben. Der angebliche Chef am Telefon klang schlichtweg zu überzeugend.

Besonders brisant wird es, wenn öffentliche Personen betroffen sind. Werden Politikern Aussagen untergeschoben, die sie nie getätigt haben, öffnet das Tür und Tor für Desinformation, Manipulation und gezielte Propaganda. Erfolgen solche Deepfakes mit politischer Absicht, untergraben sie demokratische Strukturen. Mehr noch: Sie lassen die Grenze zwischen Wahrheit und Fälschung verschwimmen – und werfen die Frage auf, worauf wir in Zukunft noch vertrauen können.

 

Warum herkömmliche Schutzmechanismen gegen KI-Stimmen versagen

Klassische Verifizierungsmethoden stoßen zunehmend an ihre Grenzen – sie sind nicht mehr in der Lage, KI-generierte Fälschungen zuverlässig zu entlarven. Denn die Qualität synthetischer Stimmen verbessert sich zunehmend. Was früher noch für Laien leicht als künstlich zu erkennen war, ist heute kaum mehr vom Original zu unterscheiden.

Der technologische Fortschritt der letzten Jahre – und vor allem der letzten Monate – ist enorm. Moderne KI-Modelle erzeugen längst nicht mehr nur verständliche Sprache, sondern imitieren auch feine Nuancen menschlicher Kommunikation: individuelle Betonungen, typische Pausen im Sprachfluss, persönliche Stimmfarben und charakteristische Rhythmen.

Das hat gravierende Folgen für die Informationssicherheit und das Vertrauen in digitale Kommunikation. Selbst eigentlich sichere Verfahren wie die Authentifizierung per Stimme (Voice-ID) können dadurch zum Einfallstor für Angriffe werden. Doch diese Entwicklung zeigt auch eines ganz deutlich: Um der Bedrohung durch KI zu begegnen, brauchen wir selbst KI. Je raffinierter die Technologien hinter Cyberattacken werden, desto intelligenter, schneller und präziser muss die Sicherheitslösung sein, die wir ihnen entgegensetzen.

 

Wie lassen sich Voice Deepfakes erkennen?

Die gute Nachricht vorweg: Es gibt bereits vielversprechende technologische Ansätze, um synthetische Stimmen zu entlarven. Weltweit arbeiten Forschungseinrichtungen und Technologieunternehmen daran, Tools zu entwickeln, die zwischen echten und KI-generierten Stimmen unterscheiden können. Im Zentrum dieser Entwicklungen steht künstliche Intelligenz. Speziell trainierte neuronale Netze analysieren große Mengen an Audiodaten, bestehend aus echten wie auch gefälschten Sprachaufnahmen. Durch dieses Training lernen die Systeme, selbst feinste Unterschiede zu identifizieren, etwa bei der Betonung, der Stimmmodulation oder dem natürlichen Sprachrhythmus. Zudem kommen akustische Analysen und spektrografische Methoden zum Einsatz. Letztere untersuchen das Frequenzspektrum einer Sprachaufnahme und machen winzige Abweichungen sichtbar, die für das menschliche Ohr kaum wahrnehmbar sind – beeinflusst etwa durch Muskelanspannung, Emotionen oder die Atmung.

Ansätze, die all diese Methoden kombinieren, sind am vielversprechendsten, um Audio-Deepfakes automatisch und zuverlässig zu erkennen – bevor sie Schaden anrichten können. Einen solchen Ansatz verfolgt zum Beispiel ein Forschungsteam an der technischen Universität in Darmstadt. Die Forscher haben ein KI-basiertes Modell entwickelt, das auf Deep-Learning Algorithmen und maschinellem Lernen basiert. Zudem ist es von Modellierungsansätzen, die aus der Physik kommen, inspiriert. Es nutzt – so ähnlich wie es ein Radarsystem macht – den Doppler-Effekt sowie Schwingungen. So werden Mikrofrequenzen in Audio-Aufnahmen analysiert und Stimmen in einzigartige Muster zerlegt. So lassen sich sehr zuverlässig – und deutlich verlässlicher als mit herkömmlichen Methoden – Voice Deepfakes identifizieren sowie menschliche Stimmen als echt verifizieren.

 

Was bringt die Zukunft?

Die Forschung steht vor der Herausforderung, mit der extrem schnellen Entwicklung von KI-Technologien mitzuhalten. Denn es ist ein ständiger Wettlauf zwischen immer ausgefeilteren Methoden zur Generierung von Fake-Stimmen und neuen Verfahren zur Erkennung dieser Fälschungen. Deshalb ist es wichtig, dass Gegenmaßnahmen möglichst flexibel und universell einsetzbar sind. Nur so lassen sich auch künftige Angriffe effektiv abwehren. Ebenso entscheidend ist ein ganzheitlicher Sicherheitsansatz, bei dem mehrere Faktoren kombiniert werden – anstatt sich auf eine einzelne Methode zur Authentifizierung zu verlassen.

Zunächst aber müssen vielversprechende Ansätze den Sprung von der Forschung in die praktische Anwendung schaffen. Dafür sind Kooperationen mit innovativen Technologieunternehmen erforderlich. Darüber hinaus braucht es auch politische Maßnahmen. In der Bevölkerung muss ein Bewusstsein für die Risiken von Voice Deepfakes geschaffen werden – und dafür, wie diese erkannt werden können. Gleichzeitig braucht es gesetzliche Regelungen für den Umgang mit synthetischen Medien. Nur wenn diese Voraussetzungen erfüllt sind, lässt sich das Vertrauen in digitale Kommunikation langfristig sichern.

Ismet Koyun ist Pionier für digitale Sicherheit sowie Gründer und CEO von KOBIL, Weltmarktführer für digitale Identitäts- und Sicherheitslösungen. Als Kopf hinter Europas einziger SuperApp setzt er sich für die digitale Souveränität Deutschlands ein.

Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.

52467

share

Artikel teilen

Top Artikel

Ähnliche Artikel