Künstliche Intelligenz gehört zu den Top-5-Themen auf der Agenda vieler CIOs und CDOs in der Automobilindustrie. Nicht selten holen sie Wolfgang Wahlster an den Tisch, um sich vom Chef des Deutschen Forschungszentrums für künstliche Intelligenz (DFKI) aus erster Hand über die neuesten technischen Entwicklungen informieren zu lassen und gemeinsam mit ihm Konzepte für innovative Bedienung, autonomes Fahren und Industrie 4.0 zu entwickeln.
Das DFKI feiert 2018 sein 30-jähriges Bestehen. In dieser Zeit sind über 80 erfolgreiche Firmenneugründungen, sogenannte Spin-offs, aus dem DFKI hervorgegangen. Sie behaupten sich in Deutschland und international erfolgreich am Markt. Im Automotive-Bereich kann ich zum Beispiel die Firma SemVox nennen – sie hat für den neuen Audi A8 eine leistungsstarke Plattform für proaktive KI-basierte Interaktion entwickelt, mit der über 200 Funktionen über Spracheingaben gesteuert werden können. Sie reicht weit über das hinaus, was wir von Siri und Alexa kennen. Der eigentliche Clou ist eine komplette Werkzeugkette, die Audi-Ingenieure in die Lage versetzt, die Dialogsteuerung ohne KI-Fachexperten selbst an neue Dienste im Fahrzeug anzupassen.
Was macht diese Lösung zu etwas Besonderem?
Man spricht zu einem Assistenzsystem mit frei wählbaren Formulierungen in einem natürlichen Sprachdialog und befreit die Nutzer von starren Menüstrukturen und eingeschränkten Befehlen, ohne deren Aufmerksamkeit vom Verkehrsgeschehen abzulenken. Es sind, wie im zwischenmenschlichen Dialog, auch Rückbezüge möglich auf Inhalte, die bereits angesprochen worden sind. Die neue Generation KI-basierter Dialogsysteme erfasst die Intention des Nutzers und ist in der Lage, bei unvollständigen Eingaben selbstständig nachzufragen und den Kontext einzubeziehen. Das zeichnet ein gutes KI-basiertes Sprachsystem aus: Es kann erkennen, verstehen und entsprechend handeln.
Es gibt ja schon eine Reihe von Standardprogrammen, die Sprache erkennen und zuverlässig in Schrift umsetzen können…
Ja, die Fehlerkennungsrate wurde in den letzten Jahren drastisch gesenkt, so dass auch ohne spezielles Training des Systems für die spezifische Stimme des Sprechers eine robuste Sprachsignalanalyse heute Standard ist. Das ist aber nur der erste Schritt für einen Sprachdialog. Der Flaschenhals ist das inhaltliche Verstehen – nicht nur einzelner Sätze, sondern einer Folge von Dialogbeiträgen. Als alleiniges Steuerungsinstrument im Auto aber taugt Sprache nicht. Deshalb verfolgen alle Hersteller multimodale Ansätze, in denen auch Freihandgestik, Körperhaltung und Blicke eine Rolle spielen. Auf der diesjährigen CES in Las Vegas haben wir gemeinsam mit unserem Gesellschafter Nuance gezeigt, wie künstliche Intelligenz das technisch unterstützen kann, und wurden dafür mit einem Innovation Award ausgezeichnet.
Sie meinen die Blickeingabe in Kombination mit einem KI-basierten Sprachdialog?
Genau. Diese Lösung erleichtert den Zugriff auf ortsbezogene Informationen in Echtzeit schon während der Fahrt. Eine Sensorfusion und ein multimodaler Ansatz erlauben es, Sprache, Blicke und weitere Wissensquellen gleichzeitig auszuwerten und die entsprechenden Informationen dialogorientiert und in natürlicher Sprache über das Infotainmentsystem im Auto auszugeben. Als Fahrer kann ich beispielsweise Fragen zu umliegenden Gebäuden, Öffnungszeiten oder Sehenswürdigkeiten stellen. Etwa so: „Wie lange hat das Fischrestaurant da drüben heute geöffnet und was sind die Tagesspezialitäten?“ Ich kann auf Empfehlungen zugreifen oder mich direkt mit dem Restaurant verbinden lassen, um einen Tisch zu reservieren.
Wie funktioniert das?
Das System wertet Blick, Kopfhaltung und gesprochene Frage synchron aus und kann auf Basis einer hochauflösenden 3D-Karte die sogenannte Referenzauflösung leisten. Es versteht genau, welches Gebäude gemeint ist. Die Vorarbeiten hierfür haben wir am DFKI bereits 2010 durchgeführt, die ersten funktionierenden Prototypen waren auf der Cebit 2012 zu sehen.
Steigt mit der synchronen Auswertung unterschiedlicher Modalitäten nicht die Komplexität?
Sprache, Gestik und Blick sind immer mehrdeutig. Erst ihre Kombination erlaubt es uns, diese Mehrdeutigkeiten wechselseitig aufzuheben. Anders ausgedrückt: Je mehr Modalitäten ich kombiniere, desto eindeutiger wird das Ergebnis. Viele Ingenieure tun sich mit diesem Grundprinzip der menschlichen Kommunikation schwer. Aber niemand sollte gezwungen werden, in bestimmten Situationen nur eine bestimmte Modalität zu nutzen. Je nach Situation und persönlicher Präferenz soll der Nutzer die Möglichkeit haben, per Sprache, kombiniert mit Gestik, oder Blick mit Sprache oder nur mit Sprache oder Gestik seine Anliegen zu formulieren. Wir plädieren bei der Bedienung im Fahrzeug für einen maximalen Freiheitsgrad – das gilt übrigens für alle Insassen gleichermaßen, nicht nur alleine für den Fahrer.
Themenwechsel: Sie haben zur Hannover Messe 2011 den Begriff „Industrie 4.0“ geprägt. Die Bezeichnung hat sich weltweit etabliert. Wie gut kommt die deutsche Wirtschaft mit der neuen Produktionslogik zurecht?
Deutschland hat sich im weltweiten Vergleich bei Industrie 4.0 einen Vorsprung von zwei bis drei Jahren erarbeitet. Die Durchdringung in anderen europäischen Ländern, in den USA, Korea, Japan und China ist längst noch nicht so weit fortgeschritten wie hierzulande. Allein im letzten Jahr haben wir 89 000 Veröffentlichungen mit dem Begriff Industrie 4.0 gezählt. Er prägt das Denken und Handeln insbesondere bei Automobilherstellern und Zulieferern stark. Es gibt keinen deutschen OEM, der im Bereich der Montage nicht auf entsprechende Technologien setzt. Ein Unternehmen wie Bosch markiert derzeit die Spitze der Entwicklung, bei der es darum geht, das Internet der Dinge und künstliche Intelligenz in die Fabriken zu bringen.
Haben Hersteller und Zulieferer einen gangbaren Weg gefunden, um aus der Industrie 3.0 in die neue Fertigungswelt zu migrieren?
Ja. Anlagen und Roboter werden nicht mehr starr von einem Zentralsystem gesteuert, sondern können flexibel genutzt werden. In Zeiten mit volatiler Marktnachfrage sind solche multiadaptiven Fabrikkonzepte ein wahrer Segen: Auf einer Linie können Autohersteller im Gemischtbetrieb mehrere Modelle fertigen, ohne dass eine Umrüstung erforderlich ist. Oder es kommen neue Maschinen für innovative Fertigungsschritte dazu und können sofort in die laufende Fertigung eingebunden werden. Das Stichwort heißt „Plug and Produce“ – jedes Produkt, jedes Werkzeug führt eine Eigenbeschreibung als digitalen Zwilling in seinem semantischen Produktgedächtnis mit sich und ermöglicht damit eine inhaltliche und nicht nur technische Kommunikation aller Geräte auf dem Shopfloor. Das ist der entscheidende Vorteil von Industrie 4.0, den vor allem amerikanische IT-Infrastrukturanbieter zunächst nicht gesehen haben. Die wollten nur den Zoo veralteter Bus-Systeme durch Ethernet ersetzen und so die Kommunikationsprotokolle standardisieren. Das aber ist zu kurz gesprungen.
Stichwort M2M-Kommunikation?
Ja, die Vernetzung aller Geräte einer Fabrik bis auf die Ebene einzelner Sensoren macht zwischen zehn und zwanzig Prozent von Industrie 4.0 aus. Die Musik spielt eine Ebene höher, wo es um das Codieren von Maschinenbaufachwissen geht, damit sich Geräte und Anlagen untereinander verstehen und mit den weiterhin notwendigen Fachkräften in einen Dialog eintreten können.
Wie schlägt sich das alles denn in Ihren Forschungsarbeiten nieder?
Gemeinsam mit dem Zentrum für Mechatronik und Automatisierungstechnik (ZeMa) hat das DFKI 2015 in einer ehemaligen ABB-Fertigungshalle hier in Saarbrücken damit begonnen, ein Zentrum für innovative Produktionstechnologien aufzubauen, das wir Power4Production nennen, kurz P4P. Im Mittelpunkt steht die intelligente Vernetzung von Produkten und Produktionsumgebungen der industriellen Wertschöpfung, speziell in der Autobranche.
Welche Themen stehen dort auf der Forschungsagenda?
Zum Beispiel die direkte Kommunikation zwischen Werkstück und Maschine oder die Mensch-Roboter-Kommunikation in Verbindung mit sogenannten cyber-physischen Produktionssystemen. Wir arbeiten eng mit BMW, Daimler und Volkswagen zusammen und wollen zeigen, wie die Automobilproduktion der Zukunft im Zeichen von KI aussehen kann. Wir stellen Teams aus Facharbeitern und Robotern unterschiedlicher Hersteller zusammen, geben ihnen unterschiedliche Aufgaben und schauen, wie sie sich untereinander abstimmen und koordinieren. Soziales Verhalten und Empathie, also die Fähigkeit, die Absichten anderer zu erkennen und auf sie einzugehen, spielen eine wichtige Rolle, wenn man ein echte Teamarbeit zwischen Menschen und Robotern realisieren will.
Sehen Sie eine vollrobotisierte Produktion und menschenleere Fabrikhallen?
Nein. Der Mensch steht weiterhin im Mittelpunkt bei Industrie 4.0. Wir haben erkannt, dass die Sensomotorik des Menschen derzeit nicht zu schlagen ist. Kein Roboter spielt so gut Fußball wie Ronaldo und kein Roboter kann Innenverkleidungen von Türen mit der gleichen Präzision und Flexibilität montieren wie ein erfahrener Facharbeiter. Um ein vergleichbares Leistungsniveau zu erreichen, wäre ein Programmieraufwand erforderlich, der jedes Rationalisierungsbudget sprengen würde. Sinnvoll aber ist sehr wohl, Aufgaben in der Montage zu verteilen: Alles, was körperlich anstrengend oder monoton ist, können Roboter übernehmen. Dort, wo Common Sense, Expertise und Feingefühl gefragt sind, wird der Mensch weiterhin seine Kompetenz ausspielen. In der optisch-ästhetischen Qualitätskontrolle zum Beispiel schlägt die menschliche Wahrnehmung jeden Roboter. Warum? Weil der Werker das Produkt aus Kundensicht ganzheitlich begutachtet und nicht stur einzelne Pixel vergleicht.
Künstliche Intelligenz soll in Zukunft vermehrt administrative Aufgaben übernehmen – etwa die Prüfung von Zoll-, Steuer- oder Finanzierungsanfragen…
Das wird so kommen. Das Stichwort lautet kognitive Intelligenz – eine Dimension, bei der Deep-Learning-Systeme wie AlphaGo von Google DeepMind oder das KI-basierte Poker-System Libratus bereits gezeigt haben, dass sie dem menschlichen Verstand in Spezialdisziplinen überlegen sind. Tatsächlich scheint mir das Automatisierungspotenzial in diesem Umfeld weitaus am größten zu sein – und für Automobilunternehmen noch leichter und schneller ausschöpfbar als in der Fabrik.
Wie ernst muss man die Angst vor einem Kontrollverlust nehmen, die mit dem Thema künstliche Intelligenz oft Hand in Hand geht?
Dazu haben wir gerade eine Projektförderung vom Bundesministerium für Bildung und Forschung erhalten. Wichtig ist eine klar geregelte Kontrollübergabe in beide Richtungen, um das Vertrauen von Passagieren in autonome Züge, Schiffe, Flugzeugen und natürlich auch Autos zu stärken. Nehmen Sie Tesla als Beispiel: Wenn nach einem halbautonom gefahrenen Abschnitt der Tesla plötzlich verlangt, sofort die Kontrolle zu übernehmen, ohne dass es sofort ersichtlich ist, warum, dann bekommt der Fahrer das Gefühl des Kontrollverlustes. So etwas geht gar nicht. Deshalb forschen wir in Richtung einer proaktiven und erklärungsbasierten Kontrollübergabe.
Wie müssen wir uns das vorstellen?
Da teilautonome Autos hochauflösende Straßenkarten benötigen, könnten sie den Fahrer frühzeitig darauf hinweisen, dass er in zwei, drei Minuten das Steuer übernehmen muss – vielleicht, weil dann die hinterlegten Straßendaten nicht mehr ausreichen, um weiter teilautonom zu fahren. Oder weil das Mobilfunknetz schwächelt und die Konnektivität für das ständige Update aus der Cloud abzureißen droht. Transparenz schafft Vertrauen und stärkt die Akzeptanz für neue Technik.
Im März hat das DFKI sich mit dem TÜV Süd zusammengetan, um eine offene Plattform zur Validierung von KI-Modulen in autonomen Fahrzeugen zu entwickeln. Wie sieht die Roadmap aus?
Unser Ziel ist es, alle KI-Module in einem vernetzten und autonomen Fahrzeug einer Prüfung zu unterziehen. Verbraucher sollen sich darauf verlassen können, dass die von der Industrie gelieferten Produkte für den Straßenverkehr tauglich und sicher sind – so wie Karosserie, Motor und alle anderen physischen Bestandteile auch. Neben Validierungsszenen wird die Plattform Genesis vor allem Material bereitstellen, das eine Vielzahl kritischer Verkehrssituationen umfasst, um neuronale Netze zielgerichtet zu trainieren. Außer Realdaten, die in Testfahrten gesammelt werden, kommen auch synthetische Daten zum Einsatz. Sie werden deshalb benötigt, weil manche Verkehrsszenarien zu selten und zu unterschiedlich sind, um mit Realdaten abgedeckt zu werden. Die Nachfrage nach diesen Simulationen ist immens.
Halten Sie das von vielen Herstellern heute proklamierte Ziel, bereits im Jahr 2025 autonom auf Stufe 5 zu fahren, für realistisch?
Um es zu erreichen, gibt es sicher noch viel zu tun. Sie sehen ja, wie viele OEMs und Zulieferer derzeit vehement Kompetenz im Umfeld von künstlicher Intelligenz aufbauen. Die deutsche Automobilindustrie hat sich organisatorisch und budgettechnisch gut auf die Herausforderungen eingestellt und arbeitet intensiv mit dem DFKI zusammen.
Zum Schluss Ihre Einschätzung bitte: Welche Richtung wird künstliche Intelligenz in den nächsten zwei Jahren nehmen?
Wir werden in der KI-Forschung weiterhin mit einem Paradoxon leben: Intellektuelle Höchstleistungen, für die wir Menschen einen hohen IQ brauchen, fallen KI-Systemen oftmals leicht, wenn man die passenden Algorithmen verwendet. Simple Dinge dagegen, die uns im Alltag spielend von der Hand gehen, fallen KI-Systemen extrem schwer – zum Beispiel auf einer belebten Einkaufsstraße schnell durchs Getümmel zu laufen, ohne mit jemandem zusammenzustoßen. Da geht es nicht nur um die Koordination von Bewegungen, es müssen unbewusst jede Menge Erfahrungswissen und soziale Regeln verarbeitet werden. Erfahrungsgeprägte Alltagsintelligenz und ein individuelles episodisches Gedächtnis werden mobile Systeme überhaupt nur dann aufbauen, wenn wir sie nicht jeden Abend abschalten. Das ist tatsächlich eine Aufgabe, mit der sich auch die Automobilindustrie beschäftigen muss. Sobald der Zündschlüssel abgezogen wird, ist die Intelligenz jedes noch so gut autonom fahrenden Autos gleich null. Computer und Sensoren im Auto müssen „always on“ sein.
Das Gespräch führten: Ralf Bretting & Hilmar Dunker
Bilder: Claus Dick