Wie sieht eigentlich der CO2-Fußabdruck von KIs aus, und wie berechnet man ihn? Emma Strubell war eine der Ersten, die dieser Frage für den Fall großer Sprach-KIs nachging. Sie fand heraus, dass schon allein das Training von ChatGPT und ähnlichen Modellen für den Klimawandel relevante Mengen CO2 freisetzt. Angesichts des Klimawandels ruft Strubell die KI-Forschungsgemeinschaft auf, statt nur an besserer Leistung endlich auch an der Energieeffizienz der KI-Systeme zu arbeiten.

Das Aufkommen großer Sprachmodelle wie dem Transformer legte 2017 – noch weitgehend unbemerkt von der Öffentlichkeit – den Grundstein für den aktuellen Hype um ChatGPT und ähnliche KIs: Diese Systeme haben nach langem Training mit unzähligen Texten gelernt zu schreiben wie Menschen. Außerdem können sie Weltwissen aus den Übungstexten mit bisher ungekannter Präzision wiedergeben. Das Besondere dabei: Je größer die Systeme sind und mit je mehr Texten sie üben, desto besser funktionieren sie. Und das braucht vor allem eins: viel Strom.

Emma Strubell und ihre Ko-Autor*innen betrachteten schon 2019 mit Sorge, wie Sprachmodelle in Tech-Industrie und Forschung immer größer und damit energiehungriger wurden. Ihr Argument ist einfach: Der Klimawandel verlangt von allen Gesellschaftsbereichen, bis spätestens 2050 klimaneutral zu werden. Dafür sollen schon bis 2030 die Emissionen von heute um die Hälfte sinken. Das passt nicht zusammen mit den exponentiell wachsenden Stromverbräuchen durch KI-Rechenzentren. Strubell hält also der eigenen Branche den Spiegel vor: Solange sauberer Strom aus erneuerbaren Energien an vielen Orten der Welt noch knapp sei, müsse sich jede energieintensive Industrie fragen, ob die grüne Energie nicht für etwas anderes dringender gebraucht wird als für das Training des nächsten Silicon-Valley-Chatbots. Für Strubell war es daher Zeit für eine Bestandsaufnahme, wie groß dieses Problem genau ist.

Dazu untersuchte sie zunächst, wie viel Strom die besonders weit verbreiteten Transformer-KIs verbrauchen, wenn man sie für einen Tag auf einem standardisierten Computer trainieren lässt. Auf Basis des US-Strommix1 konnte Strubell dann hochrechnen, wie viel CO2-Emissionen das vollständige Training eines einfachen Transformers erzeugen würde: knapp 12 kg CO2. Das ist für sich genommen nicht viel.2 Allerdings trainieren KI-Entwickler*innen in der Regel dasselbe Modell tausende Male unter leicht veränderten Umständen, um die optimalen Trainingsbedingungen (die sogenannten Hyperparameter) herauszufinden – häufig durch reines Ausprobieren.

Den Fußabdruck dieser sogenannten Hyperparametersuche abzuschätzen ist nicht leicht, da sie für jedes KI-System und jede Aufgabe anders verlaufen kann und während der Entwicklung einer KI möglicherweise mehrfach durchgeführt werden muss. Die Forschungsgruppe um Strubell nahm daher die eigenen Aufzeichnungen zu einem vergangenen Projekt als Grundlage, um die Emissionen einer beispielhaften Parametersuche zu beziffern. Für die preisgekrönte Sprach-KI LISA, die die Gruppe 2018 entwickelt hatte, hatten Strubell und Co. insgesamt über 100 Parametersuchen durchgeführt und dabei ihr LISA-Modell fast 5.000 Mal von Grund auf neu trainiert.3 Dabei wurden gut 35.000 kg CO2 emittiert – das entspricht den Jahresemissionen von zwei Menschen, die in den USA leben! Mit einem erheblich komplexeren Verfahren zur Parametersuche4 wurden sogar 280.000 kg CO2 frei – das entspricht in etwa den Emissionen eines US-Amerikaners von seiner Geburt bis zu seinem 18. Geburtstag.

Es ist also nicht nur der einzelne Trainingslauf, der die Emissionen hochtreibt, sondern auch der Umstand, dass während der Entwicklung einer KI eben viele solche Durchläufe ausprobiert werden müssen. Außerdem nehmen Größe und Komplexität der Modelle ständig zu und damit auch der Strombedarf und die Emissionen des einzelnen Trainingslaufs. So brachte es einer der ersten Transformer von 2017 wie erwähnt nur auf 12 kg CO2 pro Training – sein Nachfolger BERT kam nur zwei Jahre später schon auf über 600 kg CO2, also das 50-fache5. Und diese Entwicklung ist seitdem unvermindert weitergegangen.

Nur: Lohnen sich die immer größeren KI-Modelle und die umfangreichen Parametersuchen für ihre Entwicklung angesichts dieser Emissionen noch? Oft bringt eine neue Version einer KI nämlich nur kleine Leistungsverbesserungen.6 Strubell fordert daher am Ende des Artikels von KI-Entwickler*innen eine Kosten-Nutzen-Analyse: In Zukunft solle man nicht nur über die Leistungssteigerung der KIs berichten, sondern auch den Preis, den Umwelt und Gesellschaft dafür zahlen. Dafür müsse es unter anderem zum Standard werden, in Veröffentlichungen auch den Energieaufwand für das KI-Training und den Umfang der Parametersuche zu beziffern.7

Strubell und Kollegen liefern hierzu einen ersten Anstoß, indem sie beispielhaft die Emissionen des Trainings einflussreicher KI-Systeme benennen. Trotzdem bleiben Fragen offen, um den Einfluss des KI-Sektors auf den Klimawandel abzuschätzen. Wie viel Strom verbrauchen KIs, wenn sie fertig trainiert sind und in der Breite eingesetzt werden? Erste Schätzungen lassen vermuten, dass auch hier substantielle Emissionen zu erwarten sind.8 Und: Wie viele KIs werden überhaupt gerade weltweit trainiert und eingesetzt? Erst wenn das bekannt wäre, könnte man die Emissionen des gesamten KI-Sektors berechnen. Und nur so ließe sich beurteilen, in welchem Verhältnis diese Emissionen zu anderen digitalen Diensten wie Youtube, Netflix und Co. stehen.

Insgesamt führt Strubell der KI-Forschung und den großen Tech-Konzernen vor Augen, dass ihre Zukunft von einer knappen Ressource abhängt: sauberer Energie. Solange es diese nicht im Überfluss gibt, müssen wir entscheiden, wie Strom aus erneuerbaren Energien verteilt wird. Was ist wichtiger, eine neue KI zu entwickeln, ein Auto zu produzieren oder für ein Jahr die Wärmepumpe einer Privatwohnung zu betreiben?

Fußnoten

Den US-Strommix wählte Strubell, weil er 2019 mit etwa 60% fossilen Energien relativ repräsentativ für die beliebtesten Cloud-Rechenzentren war, die viele Firmen und Wissenschaftler*innen zum KI-Training verwenden.

12 kg CO2 entsprechen ca. den Emissionen einer 60km Autofahrt mit einem modernen Benziner (berechnet mit https://www.quarks.de/umwelt/klimawandel/co2-rechner-fuer-auto-flugzeug-und-co/).

Hätte man LISA auf einer einzigen GPU trainiert, hätte das gut 27 Jahre gedauert. In der Praxis entspricht das etwa 60 GPUs, die während der etwa sechsmonatigen Entwicklungsphase von LISA parallel hätten laufen müssen – im Dauerbetrieb.

Neural Architecture Search (NAS) – ein Verfahren, bei dem die Parametersuche mit evolutionären Algorithmen automatisiert wird, um noch bessere Ergebnisse zu erhalten.

Das entspricht einer 3.000 km-Autofahrt.

Als So et al. 2019 einen Übersetzungstransformer mit NAS optimierten (siehe vorherige Fußnote), kamen sie beispielsweise nur auf eine Verbesserung von unter einem Prozent in einem standardisierten Übersetzungstest – das scheint unverhältnismäßig wenig gegenüber CO2-Emissionen, die wie oben erwähnt ca. 18 Lebensjahren in den USA entsprechen.

Wichtige KI-Konferenzen wie NeurIPS empfehlen das zwar schon seit einiger Zeit, zwingen die KI-Entwickler*innen aber bisher nicht dazu.

Beispielsweise wird geschätzt. dass sich der Rechenaufwand für Suchmaschinen verfünffachen könnte, wenn Google und Co. flächendeckend KI einsetzen.

Re-Paper

Über den CO2-Fußabdruck von ChatGPT und Co.

Originaltitel

Energy and Policy Considerations for Deep Learning in NLP

Autor(en)

Emma Strubell, Ananya Ganesh, Andrew McCallum

KI und Nachhaltigkeit

Über den CO2-Fußabdruck von ChatGPT und Co.

Über den CO2-Fußabdruck von ChatGPT und Co.

Energy and Policy Considerations for Deep Learning in NLP

Über den CO2-Fußabdruck von ChatGPT und Co.

»Energy and Policy Considerations for Deep Learning in NLP«

Über den CO2-Fußabdruck von ChatGPT und Co.

Was es für ein nachhaltig soziales Leben braucht

Die UN-Nachhaltigkeitsziele: Chancen oder nur große Worte?

Neuer Kommentar