Social Business

The State of VUI: VUI werden nachhaltig verändern, wie wir mit technischen Geräten umgehen

Amazon hat in der letzten Woche einige neue Geräte und Funktionen für Alexa angekündigt. Fast unbemerkt und unbeachtet von der breiten IT-Öffentlichkeit, insbesondere in Deutschland. Es handelt sich hierbei jedoch nicht mehr nur um neue Echo Dots und andere Eingabegeräte, sondern um weit fortgeschrittene technische Entwicklungen im Bereich Spracheingabe und Sprachsteuerung. Andere Anbieter, wie z.B. IBM oder Google, sind ähnlich weit und können aus Sprache z.B. erkennen, wie die Stimmung des Menschen ist oder ob eine Angelegenheit dringend ist.

In Deutschland existiert ein gewisses Misstrauen gegenüber Voiceeingaben. Am häufigsten wird die Angst, abgehört zu werden, genannt, gefolgt von allgemeinen Datenschutzbedenken.

Die Gefahr jedoch ist groß, hier eine Entwicklung zu verschlafen, die vergleichbar ist mit der Erfindung des iPhones vor über zehn Jahren. Steve Jobs hat uns dahingehend erzogen, dass wir viele Geräte heute über die Berührung am Bildschirm steuern. VUIs werden unser Nutzerverhalten in sehr kurzer Zeit ähnlich stark verändern, wir werden viele Dinge des täglichen Lebens über die Stimme steuern. Bald wird es uns so ergehen wie Montgomery Scott im Film „Star Trek IV – The Voyage Home“, in dem er versucht, einen Computer von 1987 mit der Stimme zu steuern (und dann doch wieder die für ihn extrem rückständige Tastatur benutzen muss).

Vielfältige Einsatzmöglichkeiten

Beim Thema Sprachsteuerung kommt den meisten Menschen in erster Linie ein Einsatz in der privaten Küche in den Sinn. Jedoch wäre dies viel zu kurz gedacht. Google hat vor einiger Zeit ein auf künstlicher Intelligenz basiertes Sprachsystem Anrufe tätigen lassen, um es – ähnlich einem persönlichen Sekretär – im Dialog Termine abzustimmen oder einen Tisch im Restaurant buchen zu lassen. Die angerufenen Teilnehmer konnten nicht erkennen, dass sie mit einer Maschine kommunizierten. Mercedes-Benz liefert die neue A-Klasse mit einer Sprachsteuerung aus, mit der die wesentlichen Funktionen des Autos über Sprachbefehle bedient werden können, angefangen über Licht und Klimaanlage bis hin zur Navigation. Das System ist lernfähig, es kann Befehle wie „mir ist kalt“ interpretieren und wird dann die Heizung im Auto höher drehen. Es lernt über Vernetzung auch Modewörter und paßt sich den unterschiedlichen sprachlichen Gepflogenheiten der Benutzer an.

Hieran erkennt man die großen Vorteile und auch die großen Herausforderungen einer VUI. Komplexe Bedienungen können wesentlich vereinfacht werden, da die technische Funktion nicht mehr relevant ist, sondern es um die Intention des Benutzers und das Ergebnis des Dialogs geht. Die Maschine weiß, was sie in bestimmten Situationen zu tun hat, und sie lernt dazu, indem sie Rückfragen stellt oder Zusammenhänge lernt. Neben der syntaktischen kommt der semantischen Analyse innerhalb eines bestimmten Kontextes eine immer stärkere Bedeutung zu. Ein sprachgesteuertes Interface basiert auf einem Machine-Learning-Algorithmus und kann bzw. muss wie ein solches trainiert werden. Man kann sich so kaum vorstellen, wieviele verschiedene Befehle es gibt, um die Temperatur im Auto zu verändern. Das System sollte – um sinnvoll arbeiten zu können – schon mit einer breiten Basis anfangen und in der Lage sein, neue Begriffe dazuzulernen. Und dieses Wissen sollte es auch allen anderen Systemen zur Verfügung stellen können.

Zukünftige Einsatzmöglichkeiten und Herausforderungen

Langfristig sind daher zum Beispiel auch Systeme zu erwarten, die in einem Meeting zuhören und nach dem Meeting die Zusammenfassung sowie die To-Do-Liste automatisch an die Teilnehmer verschicken. Diese können dann auch ausgesuchte Analysen enthalten, z. B. bei welchen Themen sich die Teilnehmer besonders gut oder unwohl gefühlt haben, welcher der Teilnehmer eine bestimmte Schulung benötigt oder wer trotz Zustimmung eine andere Agenda verfolgt. Vielen Menschen wird beim Gedanken an einen solchen Assistenten an sich unwohl werden. Die eine Entwicklung macht die andere möglich, und sie wird kaum zu verhindern sein – die Frage ist, wie sie sinnvoll und sicher eingesetzt werden kann, um die Produktivität im Unternehmen zu erhöhen, ohne berechtigte Kontrollängste zu erzeugen.

VUI stellt daher völlig neue Anforderungen an die Entwicklung. Eine Reihe zusätzlicher Skills sind erforderlich, da im Grunde ein wesentlich anderes, viel einfacheres und viel vielfältigeres Nutzungsverhalten antizipiert werden muss. Das User Experience Design befasst sich mit Fragen wie dem Ablauf von Gesprächen zu einem bestimmten Thema sowie deren Regeln und Rahmenbedingungen. Die Definition von Eingabeprompts innerhalb der Grenzen von Themen oder Wortwahl sind ebenso Teil der Entwicklung wie eine Usabilityanalyse, um sicherzustellen, dass die daraus resultierenden möglichen Gespräche sinnvoll und nicht verwirrend sind. Und letztlich müssen in einer Audioproduktion Sound-Clips oder synthetische Sprache erstellt werden. Ein VUI-Entwickler beschäftigt sich intensiv mit dem Bestimmen der Absicht, dem Bestimmen des nächsten Schrittes, sobald die Absicht festgelegt ist, und der Entwicklung der idealen Ergebnispräsentation. Nicht selten sind dies Aufgaben, die in erster Linie von ausgebildeten Linguisten übernommen werden. Die Programmierung spielt hier immer mehr eine untergeordnete Rolle, da die gängigen Entwicklungssysteme wenig Programmierkenntnisse erfordern, sondern als Platform as a Service auf Low-Code- oder No-Code-Basis arbeiten.

Ein weiterer Aspekt ist die Systemintegration, die mit einer VUI-Schnittstelle einhergeht. Neben der Technologie, die benötigt wird, um die Sprache zu hören und ggf. korrekt räumlich zu lokalisieren, werden womöglich andere technische Schnittstellen benötigt, um die Aufgaben ausführen zu können: der Zugriff auf Datenbanken, die Integration in bestimmte Netzwerke oder auch bestimmte administrative Rechte, um Systeme automatisch zu integrieren. Um das Beispiel des Autos wieder zu bemühen: Für den Befehl „Mercedes, verbinde mein Smartphone per Bluetooth und lies meine aktuellen E-Mails vor“ brauche ich nicht nur bestimmte Administratorrechte sowohl im Auto als auch im Smartphone, die Integration beider Gerätemodelle muss auch vorab geplant, technisch ermöglicht und beständig aktualisiert werden.

VUI-Projekte eignen sich nicht für alle User Interfaces. Sobald komplexe Informationen ausgegeben werden sollen, ist die grafische Ausgabe oft besser und einfacher zu verstehen. Hier sollte also über Mischformen nachgedacht werden, die Eingaben und Ausgaben über verschiedene Medien in einer für den Benutzer idealen Form kombinieren.

Ein VUI-Projekt ist daher komplex und sollte gerade deswegen nicht auf die lange Bank geschoben werden. VUI werden in naher Zukunft einen wesentlichen Anteil an der Digitalisierung haben. Je früher ein Unternehmen darauf vorbreitet ist, desto schneller kann es diese Technologie als Wettbewerbsvorteil nutzen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.