Synthetische Daten schließen die Lücken, die reale Datensätze haben

Synthetische Daten schließen die Lücken, die reale Datensätze haben. (Bild: Adobe Stock / scharfsinn86)

Ohne künstliche Intelligenz gibt es weder hochautomatisiertes noch autonomes Fahren. Doch für das Training der entsprechenden neuronalen Netze liegen häufig nur unzureichende Daten vor: Entweder, weil es sich um Situationen handelt, die sehr selten vorkommen, oder solche trainiert werden müssen, die unter sehr unterschiedlichen Rahmenbedingungen auftreten können. Einen Ausweg bieten synthetische Daten.

Was ist das Problem an Realdaten?

„Synthetische Daten schließen die Lücken, die reale Datensätze haben“, sagt Felix Friedmann, Manager für Entwicklerbeziehungen der KI-Plattform Nvidia Drive. Daten aus der realen Welt blieben nicht zuletzt auch unvollständig, weil deren Aufzeichnung „zeitaufwändig und kostspielig“ sei. „In den letzten Jahren haben wir daher einen steilen Anstieg bei der Verwendung synthetischer Daten beobachtet.“

Die Generierung synthetischer Daten habe bei Nvidia bereits zu einer erheblichen Beschleunigung der Umfeldwahrnehmungsentwicklung geführt, so Friedmann. Als Beispiel nennt er einen Fall aus dem eigenen Portfolio: „Unser neuronales Netz, das befahrbare Fahrspuren erkennt, hatte Schwierigkeiten, einen Pfad zu bestimmen, wenn sich das Fahrzeug nicht in der Mitte eines Fahrstreifens befand. Durch ein Training mit Millionen synthetisch erzeugten Bildern, auf denen das Fahrzeug nicht in der Spur war, konnten wir die Genauigkeit des neuronalen Netzes erheblich verbessern.“

Diese Fahraufgaben profitieren von synthetischen Daten

Bei der Bedeutung synthetischer Daten für die Entwicklung geht es tatsächlich nicht nur um Situationen, die aus ethischen Gründen schwer in der realen Welt zu sammeln sind – zum Beispiel, dass Fußgänger oder Radfahrer unvermittelt den Weg eines autonomen Fahrzeugs kreuzen. Vielmehr kommen synthetische Daten auch bei vermeintlich unproblematischen Situationen ins Spiel: zum Beispiel Ampeln, deren Lichtsignale aufgrund der Perspektive oder der tief stehenden Sonne nur schwer zu erkennen sind, oder verschmutzte Straßen oder Einsatzfahrzeuge am Straßenrand – die Liste ist lang.

Als erfolgversprechend gelten auch Ansätze für die Generierung synthetischer Daten, bei denen die tatsächlichen physikalischen Mechanismen berücksichtigt werden, die zu einer Szene beitragen. Zum Beispiel durch eine physikalisch möglichst exakte Nachbildung von Beleuchtungsverhältnissen.

Im vergangenen Jahr hat Nvidia mit dem Omniverse Replicator eine Engine vorgestellt, mit der sich physikalisch simulierte synthetische Daten für das Training neuronaler Netze erzeugen lassen. So erzeugte Daten können dann dabei helfen, weitere Lücken in den Trainingsdaten der neuronalen Netze zu schließen.

Synthetische Daten sind immer eindeutig

Eine große Stärke synthetischer Daten ist zudem, dass sie immer pixelgenau sind, schließlich sind sie am Computer entstanden. Nicht immer exaktes manuelles Labeling, ist dabei nicht nötig. Synthetische Daten liefern daher immer einen eindeutigen Input für die neuronalen Netze. Und nicht zuletzt gibt es bei ihnen auch keine datenschutzrechtlichen Vorgaben, die die Entwicklungsabteilungen beachten müssten.

Martin Randler, Leiter AD-System bei ZF, bestätigt: „Wir nutzen synthetische Daten für die grundsätzliche Auslegung von Funktionen und Algorithmen.“ Der Zulieferer verwendet dabei synthetische Daten, die er entweder zugekauft oder gemeinsam mit Entwicklungspartnern erzeugt hat. Der Zukauf dürfte weiter an Bedeutung gewinnen, schätzen Branchenkenner. Auch Randler erwartet das: „Es macht absolut Sinn, standardisierte, qualitativ geprüfte Datensätze bereitzustellen.“

In den USA oder Israel etwa sind in den vergangenen Jahren Startups entstanden, die die Erzeugung und Bereitstellung von synthetischen Daten zum Geschäftsmodell auserkoren haben. Das IT-Beratungsunternehmen Gartner geht davon aus, dass in zwei Jahren bereits 60 Prozent der Daten synthetisch erzeugt werden, die bei der Entwicklung von KI oder bei Analytics-Projekten zum Einsatz kommen.

Bezogen auf die Gesamtwirtschaft erwartet Gartner, dass gegen Ende des Jahrzehnts synthetische Daten bereits einen viel größeren Anteil an den Gesamtdaten für das Training einer KI haben werden als Realdaten.

Entwicklungsabteilungen werden also zunehmend vor der Frage stehen, inwieweit es sich lohnt, synthetische Trainingsdaten überhaupt noch selbst zu generieren. Ein wichtiges Kriterium für diese Entscheidung ist natürlich die Qualität. Kein triviales Thema.

Qualität der Daten entscheidend

Das Internet ist voll von Berichten über synthetische Daten, die beim Training eines neuronalen Netzes zwar vermeintlich erfolgreich waren, anschließend aber an den Realdaten scheiterten.

Das sei noch immer möglich, sagt ZF-Manager Randler. „Je nach Sensor-Technologie kommen synthetische Daten inzwischen aber schon sehr nah an die Realität heran.“ Der entsprechende Nachweis, dass dies immer gelinge, sei dennoch „nicht vollständig erbracht“. Nicht zuletzt kommt es eben auch auf das verwendete neuronale Netz an.

Nvidia-Manager Friedmann ist jedenfalls optimistisch, dass der Einsatz synthetisches Daten weiter rasche Fortschritte macht. Diesen Schluss zieht er auch aus den bisherigen Erfahrungen: „Durch die Kombination von physikalisch korrekten Sensormodellen, einer Vielfalt an Simulationsinhalten und einer programmierbaren Engine konnten wir die Diskrepanz zwischen synthetischen und Realdaten schon spürbar verringern.“

Sie möchten gerne weiterlesen?