Voice User Interfaces: Mit menschenzentrierter Testmethode zum Erfolg

bei

 / 9. December. 2020

Sorry, this entry is only available in German. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

Beim User Interface-Testing von Sprachanwendungen für Alexa, Siri & Co. muss es nicht immer das aufwändige, kostenintensive Usability-Lab sein: Altbewährte, analoge Testmethoden – wie das das Wizard-of-Oz-Testing –, helfen dabei, Voice-KI schon ab den ersten Entwicklungsschritten kontinuierlich zu prüfen und bestmöglich an die menschliche Kommunikation anzupassen.

Sprache ist die natürlichste Art der Kommunikation. Nutzer lieben es, ihre Befehle ins Handy zu sprechen oder an Alexa & Co zu richten. Dabei ist dies nicht so leicht wie es scheint. Denn Sprache ist komplex, mehrdeutig, intuitiv und kaum in ein Schema zu pressen.

Wirtft man ein Blick auf folgendes Szenario, wird schnell klar, weshalb es notwendig ist, Voice-KI auf menschliche Verständigung auszurichten: Ein Nutzer aktiviert seinen virtuellen Assistenten Alexa, um seine To do-Liste zu vervollständigen. Sein Befehl lautet: „Alexa, ich muss morgen einen Brief zur Post bringen, Küchenpapier und Toastbrot einkaufen, meine Mutter anrufen und die Blumen gießen.“ Alexa stellt daraufhin nur die Rückfrage, ob sie eine Telefonverbindung zu ‚Mutter‘ herstellen soll – sie hat den Befehl nicht verstanden. Der genervte Anwender startet einen neuen Versuch: „Alexa, bitte schreibe auf meine To do Liste: Brief zur Post bringen, Küchenpapier und Toastbrot einkaufen, Mutter anrufen und die Blumen gießen.“ Beim Blick auf seine To Liste stellt er am nächsten Morgen entnervt fest, dass der so wahnsinnig klug anmutende Sprachassistent nur einen einzelnen Eintrag auf die Liste gesetzt hat, nämlich ‚Brief zur Post bringen Küchenpapier und Toastbrot einkaufen Mutter anrufen und die Blumen gießen‘. Ein optisch sehr sperriges Konstrukt. Damit der Nutzer seine To do-Liste wie gewohnt Schritt für Schritt abarbeiten kann, müsste er Alexa also für jedes To do einzeln ansprechen. Ziemlich umständlich und nicht besonders anwenderfreundlich.

Rein technologisch ist es leicht zu erklären, weshalb Alexa unterschiedliche Aufgaben in einen einzelnen Listeneintrag umwandelt, statt für jedes To do eine einzelne Zeile anzulegen: Der Sprachanwendung fehlt die entsprechende Codierung, um Gesagtes nicht nur in Text umzuwandeln, sondern auch den entsprechenden Kontext zu erfassen und den Sinn zu verstehen.

Künstliche Intelligenz (KI) scheitert an der Bedeutung des Gesprochenen

Sprachanwendungen erkennen grammatikalische Strukturen bereits recht gut und verarbeiten verbale Aussagen als ‚Speech-to-Text‘. Dabei wandeln sie die Schallwellen des Gesagten in Computersprache um. Die bloße Fähigkeit, Syntax, also die grammatikalische Struktur zu befolgen, befähigt jedoch nicht gleichzeitig auch zum Verständnis der Semantik, der Bedeutung des Gesprochenen.

Dabei ist nicht nur die Bedeutung eines Wortes an sich relevant für das Verständnis – auch Mimik, Stimmlage, Redewendungen und Ironie spielen eine wichtige Rolle. Gerade bei Ironie, die oft genau das Gegenteil des Gesagten zum Ausdruck bringen soll, stößt KI und damit auch so genanntes Affective Computing (Emotionserkennung) an Grenzen. Bei der Aussage: ‚Na, super!‘, sollte sich Alexa nicht zu sicher sein, dass es sich um ein Lob handelt.

Die semantischen Defizite von KI erfordern, dass alle notwendigen Zusammenhänge und Sprachbausteine in von der Software erkennbare Muster und entsprechende Codes umgewandelt werden. Je mehr semantische Konstrukte bei der Programmierung berücksichtigt werden, desto besser ist das Ergebnis.

Wie lässt sich dies in der Praxis verwirklichen? Voraussetzung ist, dass ein entsprechendes Entwicklerteam einen umfassenden Überblick über etwaige, mit der Anwendung zusammenhängende Kontexte, Sprachbesonderheiten, Vorlieben und das Nutzerverhalten erhält. Dazu bedarf es einer ganzen Reihe an Beobachtungen und vor allem Usability-Testings mit Nutzern.

User Interface-Testing: Es muss nicht immer High-End sein

Dass getestet werden muss, ist allgemeiner Konsens, denn kein Design- und Entwicklerteam kann das komplexe,menschliche Verhalten in einem bestimmten Kontext vollständig vorhersehen. Wieviel Bedenkzeit benötigen Senioren zwischen der Quizfrage und der vorbereiteten Lösung? Welche Witze bringen Kinder unter sechs Jahren zum Lachen? Auch regionale Unterschiede stellen Entwickler und Designer vor besondere Herausforderungen. Alleine die Wortvarianten für das Wort Brötchen mit Semmel Schrippe, Weck, Weckle oder Rundstück lassen die regionalen Sprachvielfalten erahnen.

Usability-Tests können auf unterschiedliche Art und Weise und zu unterschiedlichen Zeitpunkten innerhalb eines Projektes durchgeführt werden. Eye-Tracking, Fokusgruppen und Rapid Prototyping sind nur einige der Möglichkeiten. Sowohl bei User Interface-Tests in speziellen Laboren, die mit aufwändigen Set-ups ein möglichst reales Testumfeld schaffen, als auch beim Remote-Testing, bei dem Nutzer die Anwendung zu Hause auf ihren eigenen Geräten testen, ist die Anwendung bereits fertiggestellt oder kurz davor.

Die unkomplizierteste und unaufwändigste Methode hingegen, menschliches Verhalten zu erforschen, sind Wizard-of-Oz-Tests (WoZ-Tests). Diese Methode simuliert mit einfachen Hilfsmitteln das fertige System. Und dies sogar bereits, bevor einzelne Funktionen und Dialoge überhaupt implementiert werden.

Mit dem Zauberer von Oz menschliche Reaktionen sichtbar machen


Das WoZ-Testing ist eine rollenspielartige Methode, bei der der Tester die Rolle des Voice Interfaces verkörpert und anhand von vorgefertigten Dialogen mit der Testperson interagiert. Mithilfe von einfachen, zum Teil selbst gebauten oder spontan zusammengetragenen Requisiten – etwa einem Teller, der als Auto-Lenkrad dient oder einer Küchenpapierrolle als „Ersatz“ für Alexa – wird das Szenario einer funktionierenden Anwendung simuliert. Ganz wie in der Geschichte des Zauberers von Oz, der vorgibt, ein mächtiger Zauberer mit magischen Kräften zu sein, obwohl er in Wahrheit nur ein normaler Mensch ist, der – hinter dem Vorhang versteckt – Maschinen steuert und somit eine Illusion erzeugt.

Im Gegensatz zu lange im voraus geplanten UX-Tests in Usability-Labs, kann das Team durch WoZ-Testing flexibel auf überraschende Erkenntnisse reagieren und den Testablauf sogar unmittelbar anpassen. Die Tests selbst können auf verschiedenen Umsetzungs-Leveln erfolgen. Die Ausgabe eines Voice Interfaces muss nicht unbedingt von einem Menschen live gesprochen werden. Auch situativ eingespielte oder zuvor eingesprochene oder per Text-to-Speech-Engine des jeweiligen Sprachassistenten generierte Soundclips können dafür verwendet werden. Dadurch entsteht eine greifbare, realistische Testsituation. Mithilfe dieser Methode lassen sich Erkenntnisse über das Nutzerverhalten und sprachspezifische Besonderheiten gewinnen – ohne, dass bereits programmierter Code zeitintensiv abgeändert oder ein Anwendungs-Feature überarbeitet werden muss.

Technologie und menschlichen Kontext verbinden

WoZ-Testing trägt dazu bei, den semantischen Kontext einer Sprachanwendung weitest möglich vorherzusehen. Die Beobachtungen werden in das sogenannte Conversational Model eingearbeitet, um die KI damit zu füttern. Ohne semantisch sinnvollen Zusammenhang ist technologische Intelligenz unvollständig und insbesondere die auf menschlicher Sprache basierende Kommunikation über Voice Interfaces unbefriedigend. KI lernt dazu, wie enorme Fortschritte beim Machine Learning zeigen. Das reicht aber noch lange nicht. Neben einem ohnehin bereits immensen vorhandenen Wissens- und Datenschatz, Studien, Infopools uvm., sind es in der konkreten Umsetzung vor allem menschenzentrierte und emotionsbasierte User Interface-Tests, die entscheidende semantische Lücken füllen.

 

Über den Autor / die Autorin:


Dan Fitzpatrick ist bei Reply Practice Leader „Voice Machine Interfaces“ und leitet als Head of Experience Technology ein Technik-Team von Triplesense Reply.

Maria Müller konzipiert als Voice UX-Spezialistin bei Triplesense Reply Anwendungen für Sprachassistenten.