SPECIAL INPUT: Sami Nenno

Wie können KI-Modelle energiesparender werden? Ein Überblick über aktuelle Trends

Je größer das maschinelle Lernmodell, desto höher die Emissionen. Für te.ma nimmt Sami Nenno den Energieverbrauch verschiedener Lernmodelle unter die Lupe und stellt Alternativen zu den großen, energieintensiven Modellen von Big-Tech-Unternehmen und Elite-Universitäten vor.

KI und Nachhaltigkeit

Kommentar zeigen

The bigger, the better?

Ausgelöst von OpenAIs ChatGPT hat sich in den letzten Monaten geradezu ein Run auf die Entwicklung immer größerer Sprachmodelle (LLMs) gebildet. Dennoch heißt es in einem kürzlich erschienenen Artikel des britischen Economist, dass das stetige Wachstum von Machine-Learning-Modellen (ML-Modellen) in naher Zukunft zu einem Ende kommen muss. Das ist erstaunlich, weil das Motto des Wirtschaftsmagazins in der Regel „Mehr Wachstum!“ lautet. Dass selbst der Economist für weniger Wachstum plädiert, ist Anlass, sich mit aktuellen Trends in der ML-Forschung zu beschäftigen und nach deren Nachhaltigkeit zu fragen.

Der Trend zu immer größeren Modellen ist vor allem aus Ressourcengründen nicht nachhaltig: Große Modelle brauchen viele Ressourcen in Form von Rechenleistung, Geld und Expertise. Gerade Rechenleistung und Geld sind die Gründe, die den Economist zu seinem Urteil veranlassen, denn die Anschaffung der entsprechenden Hardware und die Stromkosten sind teils immens. Aber auch die benötigte Expertise führt dazu, dass sich die Entwicklung von LLMs auf wenige Wettbewerber begrenzt, die es sich leisten können, die entsprechenden Fachleute anzuwerben.

Neben der ökonomischen Nachhaltigkeit gibt es aber noch weitere Nachhaltigkeitsaspekte, die gegen die Entwicklung immer größerer Modelle sprechen. In einem Forschungspapier von 2019 zeigen Strubell und Kolleg:innen, dass das Training eines großen Sprachmodells denselben CO2-Fußabdruck haben kann wie fünf Autos in ihrer gesamten Lebenszeit. Und auch aus demokratischer Perspektive sind die stetig wachsenden Modelle nicht nachhaltig. Schon seit einigen Jahren wird die ML-Forschung von Big Tech-Unternehmen und Elite-Universitäten bestimmt.1 Dieses Oligopol wird durch größere und damit noch ressourcenintensivere Modelle nur befeuert. Darüber hinaus bedeutet dieses Oligopol Intransparenz. So sind wir beispielsweise auf den guten Willen der Unternehmen angewiesen, wenn es um die Dokumentation ihres CO2-Fußabdrucks geht.

Alles doch nicht so schlimm?

Dennoch müssen die Emissionen von ML-Modellen in einen größeren Kontext gesetzt werden. Mehrere Studien kommen zu dem Ergebnis, dass der komplette Informations- und Kommunikationstechnik-Sektor (IKT) für 1,9 bis 3,2 Prozent des globalen CO2-Ausstoßes verantwortlich ist.2 Lynn Kaack und Kolleg:innen schätzen den Anteil von ML am globalen CO2-Ausstoß auf weniger als 0,025 Prozent. Zwar betonen sie mehrfach, dass diese Zahlen nur grobe Schätzungen sind, allerdings zeigen sie klar, in welcher Größenordnung wir denken müssen. Zum Vergleich: Der Gebäudesektor ist für ca. acht Prozent und der Mobilitätssektor für ca. 22 Prozent des globalen CO2-Ausstoßes verantwortlich. Mit anderen Worten: ML trägt im Vergleich zu anderen Sektoren nur gering zum globalen Anstieg der Kohlendioxid-Konzentration bei. Was machen wir nun aus diesen teils widersprüchlichen Beobachtungen?

Was wir über die Emissionen im ML-Lebenszyklus wissen (und was nicht)

Wie Sasha Luccioni und Alex Hernandez-Garcia in ihrem Paper Counting Carbon feststellen, scheint es in der ML-Community kein ausreichendes Bewusstsein für die Dokumentation der eigenen Emissionen zu geben.3 Sie befragten per Mail etwa 500 Autor:innen, die ihr ML-Paper auf die Preprint-Plattform Arxiv hochgeladen haben, nach den CO2-Emissionen, die für das Training ihrer Modelle angefallen waren. Von den 500 angefragten Personen antworteten lediglich 77. Das entspricht einer Quote von 15,4 Prozent. Ein ähnlicher Trend lässt sich auf der Plattform Huggingface beobachten. Schon seit einiger Zeit können Nutzer:innen, die dort Modelle hochladen, recht einfach Angaben zu deren CO2-Ausstoß machen. Von den etwa 150.000 Modellen werden allerdings nur zu etwa einem Prozent Angaben zu den Emissionen gemacht. Und auch bei ML-Konferenzen ist es ähnlich. Schwartz und Kolleg:innen haben 2019 Einreichungen von Konferenzbeiträgen untersucht und festgestellt, dass die meisten Publikationen Performance, aber nicht Effizienz dokumentieren. Aufgrund des aktuellen Trends, mehr Performance mittels größerer Modelle zu erreichen,4 ist die benötigte Rechenleistung aber ein wesentlicher Faktor. Würde man stattdessen die Effizienz dokumentieren, also Performance plus benötigte Rechenleistung, dann käme man bei der Einschätzung vieler Modelle zu ganz anderen Schlüssen.

Abbildung 1: Parameter-Anzahl verschiedener ML-Modelle aus den letzten Jahren. Es zeigt sich ein klarer Trend zu größeren Modellen. Die schwarzen Punkte zeigen an, für welche Modelle Emissionsangaben vorliegen (Ausnahme: GPT-4, für das keine Emissionsangaben vorliegen).

Es lässt sich also klar sagen, dass es ein Dokumentationsdefizit bei den Emissionen für ML-Training gibt. Wenn wir uns die Entwicklung zu immer größeren Modellen ansehen (Abbildung 1),5 dann lässt sich erahnen, dass diese Intransparenz ein Problem ist. Zwar können wir nicht automatisch von den Emissionen eines Modells auf die eines anderen schließen, weil nicht nur die Größe des Modells, sondern auch Hardware und Energiemix wichtige Faktoren sind. Dennoch lässt sich erahnen, dass Modelle in einer Größenordnung von z.B. LLaMA 2 sehr hohe Emissionen erzeugen.

Wie steht es um die Dokumentation der Emissionen für die Hardware und den Einsatz der Modelle? Eines der wenigen Projekte, das die Emissionen der Hardwareproduktion in seine Kalkulation einbezieht, ist das Big Science-Projekt für das Modell Bloom.6 Es beziffert den Anteil auf 22 Prozent der gesamten Emissionen, die für die Modellerstellung anfielen. Das macht die Hardwareproduktion zu einem wesentlichen Faktor. Darüber hinaus muss man davon ausgehen, dass dem Emissionsanteil der Hardware langfristig eine größere Rolle zukommen wird. Je mehr erneuerbare Energien für die Stromproduktion eingesetzt werden, desto niedriger wird der CO2-Ausstoß für die aufgebrachte Rechenleistung und entsprechend steigt der Anteil für die Hardwareproduktion.7

Aktuell lässt sich allerdings erahnen, dass weder die Hardwareproduktion noch das Training die größten Faktoren für die ML-Emissionen sind, sondern die Inferenz, also der Einsatz von Modellen in der Praxis. Für Meta wird berichtet, dass die ML-Emissionen zu 40 Prozent von der Inferenz stammen.8 Bei Google sind es 60 Prozent und der NVIDIA CEO wird damit zitiert, dass 80 bis 90 Prozent ihrer finanziellen Kosten auf Inferenz entfallen, was auch ein grobes Bild über ihre Emissionen liefert. Hinzu kommt, dass die Integration von LLMs in die Suchmaschinen von Google und Microsoft deren Emissionen erhöhen kann. Kürzlich wurde geschätzt, dass sich die Emissionen für eine einzelne Suche verfünffachen könnten.

Große Modelle, große Emissionen. Kleine Modelle, kleine Emissionen

ML und KI werden häufig mit Big Tech in Verbindung gebracht. Es gibt aber auch eine Vielzahl an kleineren Projekten, von denen viele eine Gemeinwohlausrichtung haben. In unserer Forschungsgruppe „Public Interest AI“ am Humboldt Institut für Internet und Gesellschaft haben wir vor einiger Zeit eine Studie zu mehreren dieser Projekte verfasst und auf einer interaktiven Karte dokumentiert.9 Diese Projekte entspringen häufig der Zivilgesellschaft und helfen beispielsweise dabei, Stadtbäume effizienter zu bewässern oder die Bienenpopulation zu sichern. Und wie es mit solchen Projekten gewöhnlich der Fall ist, verfügen sie über wenig finanzielle Ressourcen. Das ist wesentlich, denn das energieintensive Training von ML-Modellen ist meist kostspielig. So schreiben Strubell et al. beispielsweise auch, dass das Training ihrer Modelle weit über 100.000$ gekostet hat. Das wirft die Frage auf, ob sich kleinere Projekte überhaupt so hohe Emissionen leisten können.

Abbildung 2: CO2-Emissionen verschiedener ML-Modelle. Es lassen sich klare Unterschiede bei den Emissionen feststellen.

In Abbildung 2 finden sich die CO2-Emissionen von ML-Projekten verschiedener Größenordnungen.10 Am oberen Ende befinden sich LLMs, die vor allem in der Industrie entwickelt werden. Es sind Modelle dieser Klasse, die Emissionen in der Größenordnung wie von Strubell und Kolleg:innen beschrieben freisetzen. Im Mittelfeld befinden sich die Modelle, die von Luccioni und Hernandez-Garcia dokumentiert werden und die vorrangig aus der Forschung kommen. Auffällig ist hier die starke Streuung der Emissionen: Es gibt Modelle, deren Emissionen äquivalent zu denen für eine Stunde 4K-Streaming sind. Es gibt aber auch Modelle, deren Emissionen mit denen eines Fluges von Berlin nach New York vergleichbar sind. Zuletzt befinden sich ganz unten (in Orange) vortrainierte und für spezielle Aufgaben angepasste (Fine-tuning-)Modelle. Man kann davon ausgehen, dass kleinere ML-Projekte eher Emissionen in der Größenordnung der Fine-tuning-Modelle freisetzen, denn sie können sich das Training eigener Modelle nicht leisten. Es zeigt sich also, dass pauschale Einschätzungen der Emissionen kaum möglich sind, weil sich Projekte abhängig von ihrer Größe teils extrem unterscheiden.

Effizienz statt Wachstum

Ende Februar dieses Jahres verkündete Meta, dass sie das Sprachmodell LLaMA für die Forschung veröffentlichen. Entsprechenden Einrichtungen wurde die Möglichkeit gegeben, sich für den exklusiven Zugang zu bewerben. Nur eine Woche später wurde das Modell allerdings geleaked und war von dann an offen im Netz verfügbar. Man könnte nun meinen, dass dies negative Folgen für Meta gehabt hätte, aber tatsächlich wurde dieser Vorfall selbst von der Konkurrenz als Glücksfall gewertet. In einem geleakten Memo eines Softwareentwicklers von Google heißt es, dass Meta nun kostenfreie Mitarbeit erhalte. Dies begründete er damit, dass künftige Innovationen durch den Leak vermutlich auf der LLaMA-Architektur basieren würden. Und tatsächlich hat sich diese Prognose bewahrheitet. Schaut man auf das Open LLM Leaderboard von Hugging Face, das LLMs der Open-Source-Community listet, bauen die meisten Ansätze auf LLaMA auf (Abbildung 3). Auch Meta scheint diese Entwicklung zu begrüßen. Kürzlich wurde LLaMA 2 veröffentlicht. Diesmal ist es allerdings direkt für alle offen zugänglich und sogar mit einer Lizenz zur kommerziellen Verwendung versehen, was bei bisherigen LLMs selten ist.

Abbildung 3: Parameteranzahl und Architektur der Modelle des Open LLM Leaderboards von Hugging Face (Stand 19.07.2023). Auch für offene Modelle lässt sich ein Wachstumstrend beobachten. Die Farben zeigen an, auf welcher Architektur die Modelle aufbauen.

Wie in dem Google-Memo beschrieben, hat sich die Open-Source-Community in den letzten Monaten zu einem ernsthaften Mitbewerber bezüglich LLMs entwickelt. Eine treibende Kraft ist Hugging Face, eine Plattform, die über 150.000 vortrainierte ML-Modelle hostet und die maßgebliche Schnittstelle ist, um freien Zugang zu LLMs zu bekommen.11 Zwar werden auch im Open-Source-Bereich riesige Modelle eingesetzt, allerdings liegt der Fokus hier stärker auf Effizienz: Es wird versucht, die Modelle zu komprimieren oder nur kleine Mengen an Parametern zu optimieren. Aus einer Nachhaltigkeitsperspektive ist dies dem Wachstum – also größeren Modellen – vorzuziehen. Effizientere Modelle haben einen geringeren CO2-Fußabdruck. Zum anderen sind sie für einen größeren Kreis von Entwickler:innen zugänglich, weil sie weniger Hardwarevoraussetzungen haben.

Ein Beispiel für die Innovationskraft der Open-Source-Szene ist die sogenannte Quantisierung. Bei Quantisierung geht es darum, die Parameter eines Modells in einem kleineren Datenformat zu speichern. Ein ML-Modell ist eigentlich nichts anderes als eine Ansammlung von Parametern, also Zahlen. Vor einigen Jahren ging es noch um eine Parameteranzahl von einigen Millionen, mittlerweile sind mehrere Millarden nicht mehr ungewöhnlich (Abbildung 3). Jede dieser Zahlen wird standardgemäß mit je 32 Bit dargestellt. Quantisierung bedeutet nun nichts anderes, als dass auf weniger Bit reduziert wird.12 Zunächst wurde die Reduktion auf 16 Bit schon als Erfolg gefeiert, mittlerweile sind 4 Bit zum Standard geworden. Jeden Parameter mit 4 statt 32 Bit darzustellen, bedeutet, dass das Modell bis zu 87,5 Prozent schneller ist und auch entsprechend weniger Speicherplatz braucht und Emissionen freisetzt.

Beachtlich ist, dass diese Errungenschaften nicht auf große Tech-Firmen zurückgehen. Eine der erfolgreichsten Quantisierungs-Libraries, bitsandbytes, wird von einem einzelnen Doktoranden mit der Unterstützung vieler Freiwilliger vorangetrieben. Während Pytorch und TensorFlow, die Libraries von Facebook und Google, weiterhin nur 8-Bit Quantisierung13 anbieten (und das auch nur eingeschränkt), hat sich in den vergangenen Monaten ein gesamtes Ökosystem mit weiteren Optimierungsmethoden rund um bitsandbytes gebildet und in Hugging Face integriert.

Transparenz, Effizienz und Differenzierung

Viele Akteure in der aktuellen KI-Entwicklung sind intransparent in Bezug auf ihren CO2-Fußabdruck und setzen vor allem auf Wachstum und immer größere Modelle. Auf der anderen Seite gibt es viele Projekte, bei denen es anders läuft und entsprechend sind Pauschalisierungen nur schwer möglich. Welche Lehren und Zukunftsperspektiven können wir daraus ableiten? Ich denke, dass die zukünftige KI-Entwicklung von Transparenz, Effizienz und Differenzierung geleitet werden sollte.

Zunächst braucht es eine weitaus rigorosere Dokumentation von Emissionen, und zwar nicht nur für das Training von ML-Modellen, sondern für alle Abschnitte des Lebenszyklus. Ich habe Hardwareherstellung und Inferenz genannt. Aber auch die Datengewinnung, -übertragung und -bereinigung sind wesentliche Faktoren. Auch andere Nachhaltigkeitsfaktoren wie z.B. der Wasserverbrauch für Datenzentren müssen berücksichtigt werden. Eine Möglichkeit ist es, dass auf Konferenzen und Publikationen im Allgemeinen nicht nur Performance, sondern auch Rechenaufwand in den Metriken berücksichtigt wird.

Damit wären wir auch direkt bei Effizienz, denn mit umfassenderen Metriken würden auch schlankere Modelle mit nur leicht verminderter Performance in den Fokus rücken. Eine Möglichkeit besteht in der Quantisierung, aber auch mehr Fokus auf Parameter-effizientes Fine-tuning, Datenqualität und andere Kompressionsmethoden sind vielversprechende Pfade. Bei der Entwicklung solcher Methoden sollte der Fokus auf Open-Source-Ansätzen liegen. Zum einen haben diese in der jüngsten Vergangenheit die größten Erfolge vorzuweisen und zum anderen sollten Methoden, die Emissionen reduzieren, generell allen offenstehen, denn nur so reduzieren wir auch im großen Maßstab.

Zuletzt sollten wir differenzierter auf unterschiedliche ML-Projekte blicken. Es gibt eine Vielzahl an kleinen bis mittleren ML-Projekten, die eine wissenschaftliche oder gemeinwohlorientierte Ausrichtung und nur unwesentliche Emissionen haben. Ein zu strikter Blick auf deren CO2-Ausstoß könnte negative Folgen haben, denn häufig fehlen die Kapazitäten, um zusätzlich auf die höchste Effizienz zu achten.

Wenn wir uns die vorigen Abbildungen anschauen, wird schnell klar: In Bezug auf ökologische Nachhaltigkeit haben wir in erster Linie kein KI-, sondern ein Big-Tech-Problem. Es sind die großen Modelle, die hohe Emissionen freisetzen und deren Trainingsdaten und Programmcode hinter verschlossenen Türen bleiben, während kleinere Projekte ihren Code meist veröffentlichen und häufig nicht mehr Emissionen freisetzen, als wenn man Arielle, die Meerjungfrau streamen würde.

Fußnoten

N. Ahmed, M. Wahed: The De-democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research. In: arXiv. arXiv:2010.15581, 2020, abgerufen am 16. August 2023.

A. S. G. Andrae, T. Edler: On Global Electricity Usage of Communication Technology: Trends to 2030. In: Challenges. Band 6, Nr. 1, 2015; L. Belkhir, A. Elmeligi (2018): Assessing ICT global emissions footprint: Trends to 2040 & recommendations. In: Journal of Cleaner Production. Band 177, 2018, S. 448-463; J. Malmodin: The ICT Sector’s Carbon Footprint. Presentation at the techUK Conference in London Tech Week on „decarbonising Data“, 2020.

A.S. Luccioni, A. Hernandez-Garcia: Counting Carbon: A Survey of Factors Influencing the Emissions of Machine Learning. In: arXiv. arXiv:2302.08476, 2023, abgerufen am 25. August 2023.

Neil C. Thompson et al.: The Computational Limits of Deep Learning. In: arXiv. arXiv:2007.05558, 2022, abgerufen am 21. August 2023.

Die Daten in Abbildung 1 stammen von J. Sevilla, L. Heim, A. Ho u.a.: Compute Trends Across Three Eras of Machine Learning. In: International Joint Conference on Neural Networks (IJCNN), 2022, S. 1-8, und W. X. Zhao, K. Zhou, J. Li u.a.: A Survey of Large Language Models. In: arXiv. arXiv:2303.18223, 2023. Die Parameteranzahl von GPT-4 stammt von diesem Leak (Paywall) bzw. diesem Post. Unter „Kollaboration“ werden Gemeinschaftsprojekte zwischen Universitäten und Unternehmen verstanden. Y-Achse im logarithmischen Maßstab.

Alexandra S. Luccioni et al.: Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language Model. In: arXiv. arXiv:2211.02001, 2022, abgerufen am 21. August 2023.

U. Gupta, Y. G. Kim, S. Lee u.a.: C hasing Carbon: The Elusive Environmental Footprint of Computing. In: IEEE Xplore. International Symposium on High-Performance Computer Architecture (HPCA), 2021, S. 854-867.

C.-J. Wu, R. Raghavendra, U. Gupta u.a.: Sustainable AI: Environmental Implications, Challenges and Opportunities. In: arXiv. arXiv:2111.00364, 2022, abgerufen am 16. August 2023.

T. Züger, J. Faßbender, F. Kuper, S. Nenno u.a.: Civic Coding. Grundlagen und empirische Einblicke zur Unterstützung gemeinwohlorientierter KI. Hrsg. im Rahmen der Initiative Civic Coding vom Bundesministerium für Umwelt, Naturschutz, nukleare Sicherheit und Verbraucherschutz, Bundesministerium für Arbeit und Soziales, Bundesministerium für Familie, Senioren, Frauen und Jugend, Berlin 2022.

10.

In Abbildung 2 stammen die Konferenz-Modelle von Luccioni & Hernandez-Garcia 2023, die LLMs von Zhao et al. 2023 und die Fine-tuned-Modelle wurden von Huggingface gescraped. Y-Achse im logarithmischen Maßstab.

11.

Ich habe kürzlich einen Blogpost verfasst mit ausführlichen Informationen zu Hugging Face.

12.

Bei der Quantisierung kommt es meistens auch zu Performanceeinbußen. In der Regel ist das Ziel ein besonders guter Trade-off zwischen reduzierter Performance und Komplexität. Es geht darum, das Modell so weit wie möglich zu komprimieren und die Performance dabei nur minimal zu reduzieren.

13.

Eine Schwierigkeit bei der Quantisierung auf weniger als 16 Bit ist es, die Modelle auf der GPU laufen zu lassen. Bitsandbytes ermöglicht dies, für PyTorch ist es nach aktuellem Stand nicht möglich.

KI und Nachhaltigkeit

Wie können KI-Modelle energiesparender werden? Ein Überblick über aktuelle Trends

Wie können KI-Modelle energiesparender werden? Ein Überblick über aktuelle Trends

The bigger, the better?

Alles doch nicht so schlimm?

Was wir über die Emissionen im ML-Lebenszyklus wissen (und was nicht)

Große Modelle, große Emissionen. Kleine Modelle, kleine Emissionen

Effizienz statt Wachstum

Transparenz, Effizienz und Differenzierung

Über den CO2-Fußabdruck von ChatGPT und Co.

Sind Algorithmen sexistischer als wir?

Neuer Kommentar