Herr Rössger, wie stehen die Chancen für die Touch-, Sprach- und Gestensteuerung? Wie werden sich neue Sprachsteuerungssyteme wie das KI-gestützte MBUX von Daimler behaupten?
Peter Rössger: Neue Player wie Byton und Exponate auf der CES zeigen einen klaren Trend hin zu großen Bildschirmen. Systeme mit riesigen Feldern, die zur Darstellung komplexer Informationen dienen. Dies alles muss auf irgendeine Art gesteuert werden. Touchinteraktion ist hierbei ein wichtiges Thema. Gerade in kleineren Fahrzeugen wird sie die Interaktion der Zukunft sein; man darf sie in dieser Fahrzugklasse als gesetzt bezeichnen. Die Systeme wurden in den vergangenen zehn Jahren stark weiterentwickelt. Sie sind nicht mehr exklusiv, sie laufen zuverlässig und sind günstig. Obendrein können die Anwender ihre Erfahrungen aus der Smartphone- oder Tabletwelt 1:1 umsetzen. Freilich bleiben Nachteilen wie das fehlende haptische Feedback oder die hohen visuellen Schleifen, die es zu drehen gilt. Hinzu kommen Fingerprints auf dem Bildschirm oder Staub.
Das Thema Sprache ist mit MBUX von Daimler und den artverwandten Systemen anderer OEMs dank der neuen Spracherkennungstechnologie, wie sie Nuance liefert, heute von einem großen Makel befreit. Denn die Nutzer konnten bislang nicht immer wissen, welche Befehle das System versteht. Heutige Systeme bieten eine One-Shot-Möglichkeit, das heißt, man kann mit ihnen sehr menschlich, sehr direkt interagieren. Bei ihnen entfällt der bislang erforderliche hohe kognitive Aufwand, den Anwender betreiben mussten, um die Sprache des Systems zu lernen. Hinzu kommt, dass es für eine jüngere Generation und andere Kulturen wie die chinesische selbstverständlich ist, mit sprechenden Maschinen zu interagieren.
In den kommenden Jahren werden wir eine Multimodularität bei den Themen Touch- und Sprachbedienung erleben. Wie sich die einzelnen Funktionalitäten aufteilen, liegt letzten Endes bei den HMI-Designern der kommenden zehn bis 15 Jahre. Es wird zu markenspezifischen Lösungen kommen, bei denen der eine Anbieter mehr auf Sprache, der andere mehr auf Touch setzt.
Weshalb hat sich die Sprachsteuerung nicht längst viel stärker etabliert?
Zum einen waren bisher die Erkennungsraten noch zu niedrig. Auch wenn diese bei 95 oder 98 Prozent lagen – was sich zunächst gut anhört -, konnte dies in der Praxis zu ärgerlichen Fehlfunktionen führen. Gerade dann, wenn die Spracherkennung in Stresssituationen des Fahrers Befehle eindeutig zuordnen musste. Bei Stress ändern sich die Stimmlage und Sprache des Menschen. Fehlerkennung führte in der Vergangenheit daher häufig zu erneuter Spracheingabe, bei weiterem Nichterkennen konnte es dann sein, dass der Anwender das System letztlich frustriert ausschaltete. In Fachkreisen nennt man dies den Aufbau einer negativen Rückkopplungsschleife. Ein weiterer Punkt ist der, dass die Idee, Sprachinteraktion rufe eine geringere kognitive Belastung hervor als andere Eingaben, falsch ist. Es gibt Untersuchungen und Studien, wie etwa von Transport Canada, die zeigen, dass eine Interaktion in einem geführten engen Sprachdialog – so wie vor MBUX üblich -, kognitiv sehr aufwändig war. Bei komplexen Sprachdialogen zwischen Mensch und Maschine stellten die Wissenschaftler eine zunehmende Einschränkung des Blickfelds wahr, bis hin zu dem Punkt, an dem der Fahrer letztlich nur noch das Kennzeichen des vorausfahrenden Fahrzeugs wahrnahm. Dies zeigt, dass ein Sprachdialog uns Menschen mental einiges abverlangt.
Dies sind Gründe, weshalb sich die Sprachsteuerung nicht früher durchzusetzte. Mit den heutigen Systemen gibt es zwar immer noch kognitive Beanspruchungen, sie fallen aber weit geringer aus. Dank einer riesigen Mimik, dank Artificial Intelligence und Big Data-Bases, die bei der Verarbeitung von Daten hinter den heutigen Spracherkennungssystemen stecken, hat sich auf diesem Feld sehr viel bewegt.
Welche Rolle bleibt in diesem Umfeld der Gestensteuerung?
Aus meiner Sicht schafft man mit der Gestenstetuerung einen künstlichen Kommunikations-Layer, der keinen wirklichen Mehrwert bringt. Wenn wir frei im Raum ausgeführte Makro-Gesten nehmen, also etwa eine Drehbewegung, um die Lautstärke eines Infotainmentsystems zu regeln, oder die inzwischen nahezu normierten Gesten, um das Telefon anzunehmen oder abzulehnen, stellen wir fest, dass auch für sie keine eindeutige Bedeutung hinterlegt ist. Mit ihnen verlangt man vom Nutzer aber, eine weitere Interaktionssprache zu lernen. So, wie man bei frühen Sprachsteuerungen Kommandos auswendig lernen musste, muss man bei der Gestensteuerung auch heute genau wissen, welche Bewegung man in welchem exakt bemessenen Raum auszuführen hat. Hier gibt es eine Parallelität aufgrund des hohen Abstraktionslevels. In der Gestensteuerung kann ich daher keinen wirklichen Mehrwert erkennen.
Ein Use Case, den ich für die Gestik sehe, liegt in ihrer Kombination mit Sprache. Bei der Bedienung im Fahrzeug kann dies etwa die Frage sein: „Was ist das?“, etwa wenn der Fahrer gleichzeitig auf einen Schalter deutet und das Display daraufhin anzeigt: „Dies ist der Lichtschalter“. Hier kann Gestik Sinn ergeben. Bei Gestik als zusätzlichem künstlichem Interaktions-Layer bleibe ich aber skeptisch. Anders sehe ich noch das Feld der Mikro-Gesten. Gestik-Anwendungen auf Touchpads können sich beispielsweise bei der Eingabe komplexer Schriftzeichen, wie jenen der chinesischen Sprache, als sinnvoll erweisen. Überall dort also, wo sich die Eingabe nicht über eine klassische Klaviatur abdecken lässt.