Je mehr, desto besser. Das ist das Mantra, wenn es darum geht, künstliche Intelligenz zu trainieren. Doch auf diese Weise wird KI nicht nur zum Daten-, sondern auch zum Energiefresser. Aber: Nicht die Datenflut entscheidet über den Nutzen künstlich intelligenter Systeme, sondern die Datenqualität. Weniger, kann mehr sein. Eine Erkenntnis, die sich allmählich durchsetzt. Zumal Smart Data hilft, den Energieverbrauch von KI-Modellen deutlich zu drücken. Das zeigen erste Projekte und praktische Anwendungen rund um Green AI.
Warum KI so viel Energie benötigt
Das scheint auch dringend nötig. Alex de Vries von der VU Amsterdam School of Business and Economics hat berechnet, dass der Stromverbrauch von künstlicher Intelligenz bis 2027 auf 85 bis 134 Terawattstunden (TWh) Strom pro Jahr steigen könnte. „KI könnte so viel Strom verbrauchen wie die Niederlande“, erklärt der Datenwissenschaftler. Basis seiner Prognose ist der erwartete Absatz von Chips des Marktführers Nvidia, der, so de Vries, rund 95 Prozent der für KI-Modelle benötigten Microprozessoren liefert.
Allzu oft unbeachtet bleibt zudem der gewaltige Wasserverbrauch, der durch die Kühlung der Rechenzentren entsteht: Laut einer Berechnung Forschender der University of Colorado Riverside und der University of Texas Arlington hat allein das Training von GPT-3 rund 700.000 Liter sauberes Süßwasser verbraucht. GPT-3 verschlingt demnach für ein Gespräch mit zehn bis 50 Fragen und Antworten eine 500-ml-Flasche Wasser.
„Künstliche Intelligenz hat einen enormen Energiehunger und somit einen großen CO2-Fußabdruck“, sagt Ewald Munz, Head of Manufacturing, Automotive and Sustainability EMEA bei dem Big Data-Spezialisten Splunk. „Laut Branchenkennern verbraucht das Training eines Large Language Models wie ChatGPT 1.300 Megawatt - das ist mehr als die Leistung eines Atomkraftwerks oder 1.625.000 Stunden Streaming.“ Längst findet sich nicht nur ChatGPT im Auto, auch sonst wächst der Anteil KI-basierter Systeme. Kurzum: Der ökologische Fußabdruck sollte kleiner werden. Nur wie?
Was hat Datenqualität mit grüner KI zu tun?
„Daten sind die Grundlage der KI. Die Leistungsfähigkeit der KI ist eng mit der Datenqualität, dem Datenkontext und der Datenrelevanz verbunden“, sagt Munz. „So führt eine schlechte Datenqualität zu einem schlechten KI-Modell.“ Wesentlich ist also, die Qualität zu verbessern, um so Genauigkeit und (Energie-)Effizienz der Modelle in Balance zu bringen.
„Ein Weg, um sicherzustellen, dass KI-Modelle nur mit relevanten Daten gefüttert werden, ist ein klarer KI-Leitfaden im Unternehmen“, erklärt Munz, „Dadurch wird sichergestellt, dass es einen transparenten Entscheidungsfindungsprozess gibt, der dabei hilft, zu bestimmen, welche Daten verwendet werden sollen und welche nicht.“
Doch was genau zeichnet hochwertige Trainingsdaten aus? Datenqualität wird von zahlreichen Faktoren beeinflusst, hängt aber entscheidend von der Erfassungsmethode ab: Für die Gewinnung hochwertiger Daten ist ein akkurater Aufnahmeprozess unerlässlich. Im nächsten Schritt muss dann in den so gewonnenen, noch unsortierten Daten die Teilmenge gefunden werden, die das Zeug zu erstklassigen Trainingsdaten hat, sprich, exakt die Informationen enthält, die die KI zum Lernen braucht. Die große Kunst besteht darin, aus einer Datenmenge genau diese Informationsmerkmale und -muster im genau richtigen Mengenverhältnis herauszufiltern.
Datensparsame Altteil-Identifizierung per KI
Wie so etwas in der Praxis gelingen kann, zeigen Forschende des Fraunhofer IPK im Projekt EIBA, bei dem KI-basiert Auto-Altteile identifiziert und analysiert werden, um sie wiederaufzubereiten. Die Herausforderung: Auch bei verschmutzten, verschlissenen und überlackierten Teilen müssen Teilenummern eindeutig erkannt werden. Entsprechend ausgefeilt sollten neuronale Netze und Algorithmen für das maschinelle Sehen arbeiten. Klingt nach horrendem Trainingsaufwand. Nicht unbedingt, wie das Fraunhofer IPK zeigt.
Bei der Datenerfassung wählten die Forschenden einen multimodalen Ansatz, der bewusst auf mehrere Datenquellen zugreift, inspiriert von der menschlichen Wahrnehmung, bei der ein Teil ja gedreht und gewendet sowie aus verschiedenen Blickwinkeln betrachtet würde. „Die von uns entwickelte Lösung umfasst Stereokameras und eine Waage, um das Gewicht sowie optische Eigenschaften in 2D und 3D zu erfassen“, erklärt Fraunhofer IPK-Forscher Clemens Briese, „Zudem werden auch bereits aus den Logistik- und Dokumentationsprozessen vorhandene Geschäfts- und Lieferdaten miteinbezogen.“
Die Daten werden durch am Arbeitsplatz installierte Kameras im laufenden Betrieb eines Dienstleisters für die Kreislaufwirtschaft erfasst, wodurch sich aufwändige Trainings vorab erübrigen. Allerdings: „Wir hatten nicht mit der häufig schlechten Qualität der Bilddaten gerechnet“, berichtet Forscher-Kollege Paul Koch. „Auf vielen Aufnahmen waren Hände, Kaffeetassen oder andere Utensilien im Bild, war das Bauteil abgeschnitten, verschattet oder nur der leere Arbeitstisch zu sehen.“ Damit erwies sich ein erheblicher Teil der Daten nicht nur als unbrauchbar für das Training, sondern schadete ihm sogar. Rasch war klar: Weniger - aber die richtigen - Bilder müssen her. Briese: „Wir entwickelten eine Methode, die wiederum KI und Statistik nutzt, um die Bildqualität zu bewerten.“ Das ebnete den Weg zu weniger, aber dafür geeigneten Trainingsdaten.
„Die Schwierigkeit liegt darin, die richtige Balance zwischen Datenreduktion und Informationsgewinnung zu finden“, betont Koch, „Denn werden zu viele Daten herausgefiltert, leidet die Performance der KI.“ Damit das nicht passiert, setzten die Forschenden auf automatisiertes Clustering. Eine Form des unüberwachten maschinellen Lernens, bei dem nicht gekennzeichnete Daten allein aufgrund ihrer Ähnlichkeit gruppiert werden. Effekt: Die Trainingsdatenmenge verringerte sich um 60 Prozent, mehr als 98 Prozent der Kfz-Altteile wurden richtig identifiziert - und der Energieverbrauch sank deutlich: Pro richtig sortiertem und anschließend instandgesetztem Bauteil wurden 8,8 Kilo CO2-Äquivalente eingespart.
Wie kann KI in großem Stil grüner werden?
Munz nennt noch weitere Hebel, um KI grüner zu gestalten: „Wichtig ist, Transparenz in den CO2-Fußabdruck der KI zu bringen.“ Unverzichtbar hierfür sind Echtzeit-Datenanalysetools, die die Vielfalt und das Volumen der Daten von den Geräten unterstützen, die den CO2-Fußabdruck ausmachen. So ließen sich die Standorte von Rechenzentren optimieren, womit sich energieintensive Workloads auf Zentren verlagern ließen, die eine niedrigere Carbon-Intensität hätten. Außerdem lässt sich der Zeitpunkt von Workloads optimieren, so dass nicht-zeitkritische, rechenintensive Operationen dann erfolgen, wenn etwa der Anteil der erneuerbaren Energien am höchsten ist. Nicht zuletzt könnte durch Analysen zielgerichtet Hardware erneuert werden, die zu viel Energie schluckt.
Bei allem wird KI datenhungrig bleiben. „Die ausgefeilteste KI ist austauschbar, aber die Daten, die ihr zugrunde liegen, sind es definitiv nicht“, betont Munz. Google zum Beispiel gebe sein neuronales Netz TensorFlow frei, würde aber niemals die Daten dahinter preisgeben: „Der Wettbewerbsvorteil liegt eindeutig bei den Daten und nicht bei der KI selbst.“