Vom Visuellen zum Vokalen: Auf diese Merkmale kommt es bei Sprachgestaltungssystemen an

Die Programmierung von Sprachschnittstellen funktioniert prinzipiell ähnlich zu der grafischer Benutzeroberflächen. Während ein visuelles Gestaltungssystem allerdings eher intuitive Hauptmerkmale hat – Farbe, Größe, Abstand oder Proportion –, sind die Merkmale eines dialogischen Gestaltungssystems (z.B. einer Voice-Anwendung) weniger offensichtlich: Dazu gehören einerseits verbale Merkmale wie die Wahl der Vokabeln, Paravokale und Linguistik und andererseits nonverbale Merkmale wie Phonologie und Prosodie, die u.a. die Tonhöhe, Lautstärke, und Geschwindigkeit beschreiben. Dan Fitzpatrick und Maria Müller erklären, wie sich z.B. Markenbotschaften mithilfe von ganzheitlichem Voice Branding und Speech Synthesis Markup Language (SSML) kommunizieren und transportieren lassen und welche technischen Herausforderungen damit einhergehen.
Von   Daniel Fitzpatrick   |  Manager bei Frank Reply und Practice Lead Voice Machine Interfaces bei Reply SE   |  Frank Reply
  Maria Müller   |  Conversational Design Lead   |  Frank Reply
2. Juni 2023

Der Ton macht die Musik – im echten Leben ebenso wie im Dialog zwischen Voice Devices und seinen Nutzer:innen. Sprachassistenten sollten ihr Gegenüber also nicht nur verstehen, sondern auch adäquat antworten können – bestenfalls wortgewandt, in der richtigen Tonaliät und Lautstärke.

Kommunizieren wir Menschen mit Sprachassistenten, machen wir uns auf Basis ihrer Stimme, ihrer Wortwahl oder der Betonung unweigerlich ein Bild von unserem virtuellen Gegenüber. Dieses – übrigens meist weiblich geprägte – Bild beeinflusst stark, ob wir als Nutzer:innen den jeweiligen Sprachassistenten gerne ansprechen oder nicht. Ein Voice Interface sollte folglich sympathisch erscheinen und in natürlicher Sprache antworten können.

Wie also realisiert man eine solche, für die/den Nutzer:in passende Sprachschnittstelle, die die Menschen konsistent im Voice-Design und möglichst ungekünstelt anspricht?

Komponenten der Sprache identifizieren

Ob es sich um Häuser in einer Siedlung, Farben und Abstände in einem Logo oder Tonhöhen und Lautstärken verbaler Aussagen handelt – zentrale Designregeln und Gestaltungssysteme bilden die Grundlage für ein ansprechendes, vor allem aber auch einheitliches und konsistentes Erlebnis. Dies gilt grundsätzlich auch für Sprachschnittstellen. 

Die Gestaltung und Entwicklung von Sprachschnittstellen läuft daher prinzipiell ähnlich ab zu der grafischer Benutzeroberflächen. Aus technischer Sicht beruhen beide auf denselben Technologie-Stacks, d. h. auf der Orchestrierung von Markups (HTML, SSML), Skriptsprachen (JavaScript, Node, Python) und Datenstrukturen (JSON, XML). Diejenigen Praktiken, die beispielsweise Webanwendungen robust und zukunftssicher machen, gelten also in weiten Teilen auch für Sprachanwendungen. Um ein systematisches Design auf ein beliebiges Medium anwenden zu können, muss zunächst festgestellt werden, auf welchen wiederkehrenden Mustern und Elementen sie basiert. Die für ein Sprach-Gestaltungssystem relevanten Merkmale bestehen in erster Linie aus verbalen, also kognitive Aspekte und nonverbalen Elementen.

Grundsätzlich ist es kein Geheimis, dass die Wahl der Wörter viel über einen Menschen aussagt. Unsere Stimme verrät unser Geschlecht, unser Alter, unseren geografischen Hintergrund, unser Bildungsniveau, unsere Herkunft, unseren emotionalen Zustand und unsere Beziehung zu Gesprächspartnern. Wenn es also darum geht, die Gesprächspersönlichkeit eines Unternehmens, eines Produkts oder einer Dienstleistung erfolgreich zu transportieren, sind die kognitiven Aspekte der Sprache als eindeutige Merkmale entscheidend – sowohl für das Unternehmen, als auch die jeweiligen Nutzer:innen.

Damit ein Sprachassistent adäquat auf sein Gegenüber reagieren kann und vor allem auch in der Lage ist, in der richtigen Tonalität und mit der passenden Wortwahl zu antworten, sind einige verbale sowie nonverbale Komponenten zu berücksichtigen:

Je älter und gebildeter, desto ausgereifter der Wortschatz

Ist die/der Sprechende gelehrt und förmlich in ihrer/seiner Kommunikation oder sind die verwendete Terminologie und Syntax einfacher Natur?

Je reifer die/der Sprechende ist, desto umfangreicher ist der aktive Wortschatz. Bei der Programmierung von Sprachschnittstellen sollten die Sprach-Ein- und -Ausgaben entweder eine Fülle oder einen Mangel an Synonymen für jedes Fragment enthalten. Darauf aufbauend spielt das Alter einer/eines Sprecher:in eine Rolle für den sprachlichen Ausdruck, da es die Struktur von Sätzen, die Komplexität des Wortschatzes und die Höflichkeit einer Ansprache prägt.

Verbosität: Eine breite Wortfülle für unterschiedliche Ausdrucksweisen

In einem Sprachgestaltungssysteme sollte stets der Umfang eines Inhalts definiert sein, der erforderlich ist, um eine bestimmte Information zu vermitteln oder zu verstehen. Ein Beispiel: Die Sprachassistenten einer Versicherung und eines Reisebüros können dieselbe semantische Aussage liefern, dies aber in völlig unterschiedlicher Diktion tun. So könnte die Begrüßung bei einer Versicherung „Guten Tag, wie kann ich behilflich sein?“ lauten, während das Reisebüro Interessierte mit „Hallo, was kann ich für dich tun?“ anspricht.

Selbst innerhalb einer Produktgruppe – beispielsweise bei einem Automobilkonzern – ist es mitunter notwendig, zu differenzieren: So ist die Incar-Infotainment-Sprachanwendung eines Rolls-Royce im Fall einer Glatteiswarnung in der Lage, sich anders ausdrücken, als die eines Sportwagens von Mini, obwohl sie auf dem gleichen BMW-System und derselben Natural Language Processing- (NLP) bzw. Natural Language Understanding (NLU)-Engine basieren. So könnte die Anweisung an die Rolls-Royce-Fahrerin lauten “Warnung vor Glatteis: Bitte reduzieren Sie die Geschwindigkeit.”, die an den Mini-Fahrer “Vereiste Fahrbahn in 100 m, fahr bitte langsam!”

Kulturelle Aspekte, Dialekte und Paravokale berücksichtigen

Geht es darum, die Persönlichkeit einer Sprachanwendung zu definieren, spielen oft auch sprachliche Eigenheiten eine entscheidene Rolle. Das Beispiel der Begrüßung ist ein guter Beleg dafür, wie sich regionale Eigenheiten – etwa Dialekte – nutzen lassen, um sympathisch zu wirken. Würde eine Marke wie Astra-Bier ihre Zielgruppe mit „Grüß Gott“ ansprechen, würde sich Menschen ebenso wundern, wie wenn von Erdinger Weißbier ein „Moin“ käme. Weiterhin sorgen von Sprachassistenten genutzte Füllwörter dafür, dass sie Aussagen menschlicher und natürlicher anhören. Dazu zählen etwa Zwischenrufe wie „autsch“, „aua“ oder Störungen bzw. Füllwörter wie „ähm“, „also „oder „naja“.

Akustik: Leise Töne anschlagen oder größe Töne spucken?

Introvertierte und extrovertierte Persönlichkeiten weisen in der Regel gegensätzliche Merkmale der Prosodie, also Sprechtempo, Rhythmus etc auf. Allgemein gilt: Introvertierte Persönlichkeiten sprechen leiser und langsamer, mit weniger Amplitude der Modulation in der Stimme als extrovertierte Menschen. Da die Benutzer:innen als Zuhörer:innen oder Gesprächspartner:innen eine unmittelbare emotionale Verbindung zu einer synthetischen Stimme aufbauen, ist bei der Entscheidung, wie ein Sprachassistent kommuniziert, sorgfältig auf die Wahl der Akustikform zu achten.

Der Grund, warum Sprachdesigner:innen beim Gestalten von Sprachschnittstellen verschiedenste Elementen der Sprache berücksichtigen, liegt auf der Hand: Die Customer Experience für Zuhörer:innen – sei es beim Voice Device zu Hause, dem Incar- Infotainmentsystem oder einem Chatbot – ist erst dann gut, wenn die Anwendung möglichst natürlich klingt, also wenig blechern, roboterhaft und monoton. Technisch lässt sich dies über die sogenannte Speech Synthesis Markup Language (SSML) lösen.

SSML und die Elemente der Sprache

Autor:innen gliedern in Kapitel und Absätze, Musiker:innen kreieren Beats und Melodien. Sprachdesigner:innen verwenden SSML, um gesprochene Aussagen zu strukturieren und verbal von einem Sprachassistenten Geäußertes angenehm für Zuhörer:innen klingen zu lassen sowie das Verständnis zu verbessern. SSML steuert die Aussprache, Lautstärke, Tonhöhe und Geschwindigkeit der Sprachausgabe. Diese Merkmale werden kombiniert als Parameter in den sogenannten <prosody>-Tag integriert, um zahlreiche Effekte zu erzielen.

Hierin liegt das Potenzial für Entwickler:innen, einer Stimme eine Bedeutung zu verleihen – genau wie bei grafischen Benutzeroberflächen durch die Verwendung von Unternehmensschriften und Farbschemata.

Verfeinert man die SSML-Architektur, lässt sich eine immer höhere Originaltreue im Vergleich zu natürlicher Sprache erreichen, beispielsweise durch das Hinzufügen von benutzerdefinierten Stimmen, Atemgeräuschen, Flüstern, Klangfarben, Sprechstilen oder speziellen Sprachelementen wie Akronymen.

Neben den akustischen Hinweisen, die gehört werden, spielen auch die stummen eine Rolle. Bei Sprachschnittstellen werden gesprochene Inhalte durch unterschiedlich lange Pausen abgegrenzt. Verlängerte Pausen können eine gewisse Dramatik oder Nachdenklichkeit vermitteln, verkürzte Pausen Energie und Begeisterung einbringen. Geht ein/e Sprecher:in von einem Indikativsatz zu einer Liste von Optionen über, ändert sich außerdem der Sprachrhythmus entsprechend, um den Hörer:innen auf die zusätzliche Semantik aufmerksam zu machen: „Ich möchte eine Pizza – keine Calzone – mit Pilzen, Paprika und Zwiebeln bestellen.“ Dementsprechend lässt sich der Redefluss durch die Definition von Pausen mit unterschiedlichen Längen strukturieren.

Wenn die Standard-Alexa-Stimme zu blechern klingt

Tatsächlich bieten die meisten Anbieter – wie Amazon Alexa oder Google Home – über ihre Standardstimmen hinaus zum Teil recht aktzeptable Wahlmöglichkeiten. In den deutschen Regionen heißen die Alternativen zur weiblichen Standardstimme für Alexa zum Beispiel „Hans“ und „Marlene“.

Stellt ein Unternehmen fest, dass sich keine der vorhandenen Stimmen für seinen Voice-Skill eignet, könnte ein/e Synchronsprecher:in zum Einsatz kommen. Der Vorteil: Die- oder derjenige hat die volle Kontrolle über all diejenigen Aspekte der Sprache, die eine starke soziale Wirkung haben, wie Geschlecht, Alter, Akzent und Bildungsniveau. Folglich steigen die Chancen auf ein einfühlsames, maßgeschneidertes Voice-Erlebnis. Allerdings muss die/der Sprecher:in für Systemaktualisierungen erneut eingeschaltet werden.

Die wahrscheinlich teuerste, aber effektivste Lösung für SSML und die Wiedergabe von Stimmen ist es, feinste Details der akustischen Signatur einer Zielstimme zu verankern. Diese Methode nennt sich Stimmenklonen. Der mit SSML angereicherte Textinhalt wird mit den Merkmalen der künstlichen Stimme (ob von einer/einem Spreche:in geklont oder rein künstlich) kombiniert und dann zur Laufzeit über eine API-Anfrage bereitgestellt.

Ganzheitliche Spracharchitektur-Ökosysteme

Fest steht: Unternehmen sollten ihr Gegenüber über eine Sprachschnittstelle verstehen und auch adäquat antworten können. Längst geht es nicht mehr nur um Anwendungen, die einfach nur funktionieren, sondern vielmehr um nachhaltige Spracharchitektur-Ökosysteme. Denn mit ganzheitlich gestalteten Stimmen lassen sich Botschaften, Informationen und Kontexte effektiver und nachvollziehbarer vermitteln und sorgen so letztlich für eine bessere Interaktion zwischen Mensch und Maschine.

Dan Fitzpatrick ist Manager des auf Conversational Interfaces spezialisierten IT-Dienstleisters Frank Reply. Außerdem ist er Practice Lead Voice Machine Interfaces bei Reply SE.

Um einen Kommentar zu hinterlassen müssen sie Autor sein, oder mit Ihrem LinkedIn Account eingeloggt sein.

34855

share

Artikel teilen

Top Artikel

Ähnliche Artikel