Mit welchen Daten sollten maschinelle Lernmodelle trainiert werden?

Re-Web
Roberto Simanowski2022
Re-Web

Mit welchen Daten sollten maschinelle Lernmodelle trainiert werden?

»Künstliche Intelligenz und Ethik: Ist Gerechtigkeit programmierbar?«

Inhalte

Intro

Geschrieben von Eva von Grafenstein

Bei te.ma veröffentlicht 25.04.2023

Geschrieben von Eva von Grafenstein
Bei te.ma veröffentlicht 25.04.2023

In seinem Debattenbeitrag im Spiegel macht Roberto Simanowski darauf aufmerksam, dass sprachverarbeitende künstliche Intelligenz (KI) ungleiche Machtverhältnisse zwischen Bevölkerungsgruppen verstärken könnte. Als ein Hauptproblem sieht er an, dass die Daten, an denen sie trainiert wird, vorrangig von weißen jungen Männern aus den USA stammen.

Nutzer von Sprachassistenten wie Siri und Alexa verwenden diese, um sich über Fakten wie historische Jahreszahlen und Ereignisse, aber auch über soziale, politische und moralische Fragen zu informieren. Auf diese Weise wird ihr Weltverständnis enorm durch die Geräte beeinflusst. Zugleich speist jede Anfrage den Algorithmus und reichert ihn mit weiteren Daten an. Diese Daten bilden jedoch, wie Simanowski es formuliert, nur den Mainstream ab. Denn die sprachverarbeitende KI berechne aus ihnen rein statistisch „Häufigkeiten von Wortvorkommen und Wortfolgen in thematischen Zusammenhängen“, wodurch sie in der Lage sei, „selbst eine syntaktisch richtige und semantisch stimmige Aussage zu machen“. 

Simanowski verweist in diesem Zusammenhang auf das Problem, dass die Daten, mit  denen die Sprachassistenten trainiert werden, nur von einem kleinen Ausschnitt der Gesellschaft ausgewählt und angepasst werden, nämlich überwiegend von jungen, weißen, männlichen, vergleichsweise wohlhabenden Softwareentwicklern aus den USA. Er sieht darin die Gefahr, dass andere Weltsichten und Weltregionen nur wenig bis gar nicht in diesen Daten repräsentiert werden.1 

Eine mögliche Lösung sieht Simanowski in einer „algorithmischen Reparatur“. Dabei würde sprachverarbeitende KI an Daten trainiert, die von bisher unterrepräsentierten Bevölkerungsgruppen kommen. Wichtig sei aber vor allem eines: die gesellschaftliche Aushandlung der Frage, aus welchen Datensätzen Sprach-KI lernen sollte. Bei dieser Frage gehe es letztlich um Gerechtigkeit.

Fußnoten
1

Simanowski scheint sich in seinem Beitrag in vielen seiner Ausführungen implizit auf das Paper On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? von Emily M. Bender et al. aus dem Jahr 2021 zu beziehen (frei zugänglich unter https://dl.acm.org/doi/10.1145/3442188.3445922).

Re-Web
Eingeschränkter Zugang
Eingeschränkter Zugang bedeutet, dass das Material nicht ohne weiteres öffentlich zugänglich ist.
Related Articles
Diskussionen
4 Kommentare
There are new comments!

Neuer Kommentar

Der Ort für deinen Diskussionsbeitrag. Du kannst taggen, linken und Text formatieren. Bitte beachte unsere Community Guidelines.

Du antwortest auf den Beitrag: "Mit welchen Daten sollten maschinelle Lernmodelle trainiert werden?".

Total 5

Ich stimme Simanowski zu, dass der Bias in den Daten, auf denen die KI trainiert wird, ein Problem ist. Ich würde aber noch ein Schritt weiter gehen, als nur auf die „jungen, weißen, männlichen, vergleichsweise wohlhabenden Softwareentwicklern aus den USA“ zu verweisen.

Nämlich werden viele Algorithmen im und am Internet trainiert, da dies die größte Datenmenge gewährleistet. Das Internet ist aber ebenfalls in keiner Weise repräsentativ für die Menschheit. Die Beiträge, die online zu finden sind - gerade auf sozialen Medien - wurden nur von einem kleinen Prozentsatz der Bevölkerung gepostet; meist die mit starken, diskriminierenden Meinungen. Der Großteil der Menschen, die online aktiv sind, lesen ohne zu diskutieren; und bleiben damit ungehört. Algorithmen, die auf diesen Daten trainiert werden, könne am Ende nur wiedergeben, was ein Großteil der Menschen nie sagen würde. Gleichzeitig gibt es keine Datenmenge, die quantitativ in Konkurrenz zum Internet treten kann.

Optimaler Weise würden Algorithmen auf Daten von Menschen trainiert werden, die jegliche Bevölkerungsschichten abdecken: alle Ethnien, Geschlechter, Sexualitäten, Meinungen, Religionen, und auch Neigungen, sich kundzutun oder eben nicht. Allerdings sehe ich Schwierigkeiten darin, so einen Datensatz zu kreieren, eben weil der Großteil der Menschen nicht jede Meinung öffentlich macht.

Total 3

Da ich mich gefragt hatte, wie viele Daten tatsächlich aus Online-Foren stammen: GPT-3, der Vorgänger von dem Modell auf dem ChatGPT basiert, wurde zu 22% mit “WebText2” Daten trainiert, die aus Reddit Beiträgen bestehen und zu 60% mit “common crawl”, also mehr oder weniger beliebigen Webseitendaten, die anscheinend auch Online-Foren umfassen können (siehe: https://arxiv.org/pdf/2005.14165.pdf). Demnach scheint das von dir erwähnte Problem tatsächlich realistisch zu sein.

Abgesehen davon sind 93% der Daten auf Englisch. Demnach sind Daten aus anderen Sprachen/Kulturen unterrepräsentiert. Fremdsprachige Daten ins Englische zu übersetzen birgt Schwierigkeiten, besonders bei regionalen Sprachen. Inwiefern eine KI mit Daten auf vielen verschiedenen Sprachen trainiert werden kann weiß ich nicht.

Ein weiteres Problem ist, dass es für manche Bevölkerungsgruppen wahrscheinlich weniger Daten gibt, z.B. aus weniger industriell entwickelten Ländern.

Andererseits wird es nie möglich sein Daten komplett ohne Bias zu erhalten, da vieles subjektiv ist.

Als weitere Beispiele neben ChatGPT gehe ich davon aus, dass die Inhalte, die Google, Youtube, Facebook etc., einem vorschlagen wahrscheinlich dem gleichen Phänomen unterliegen, da diese auch KI verwenden.

<Deleted>
Mai 20, 2023 22:07
Total 1

Ich stimme dir zu, dass die Datenmenge im Internet nicht repräsentativ ist für die globale Menschheit ist. Sicherlich gibt es hier großen Handlungsbedarf!

Gleichzeitig weiß ich nicht, ob wir es schaffen, eine ausgeglichene Datenmenge aller Bevölkerungsgruppen zu generieren. Ich denke, wir müssen auch lernen, Antworten und Ergebnisse von KI-Algorithmen zu hinterfragen und prüfen, ob eine Diskriminierung aufgrund von Datenbias vorliegen könnte.

Total 2

Ich finde den Artikel von Roberto Simanowski sehr spannend, besonders weil er aus einer eher philosopischen Perspektive an das Thema herangeht. Einerseits würde ich sagen, dass dadurch natürlich auch ein Problem einhergeht. Die Aussage “Eine KI, die sich beim Meditieren entspannt, muss mehr sein als leb­loser Code.” finde ich da besonders problematisch, weil ich auch nicht das Gefühl habe, dass dem/der “normalen” Leser:in direkt so klar wird, woher diese Aussage der KI kommt. Andererseits sind viele richtige und gute Informationen enthalten und besonders die Fragen am Ende bringen die Probleme, die Sprach-KIs mit sich bringen - finde ich - gut auf den Punkt. Spannend auch, dass der Artikel vor der Veröffentlichung von ChatGPT geschrieben wurde. Eine neue Einschätzung von Simanowski wäre sicherlich auch interessant zu lesen.

te.ma sammelt keine Cookies. Um mit der Allgemeinen Datenschutzgrundverordnung (DSGVO) übereinzustimmen, müssen wir dich aber informieren, dass von uns eingebundene externe Medien (z.B. von YouTube) möglicherweise Cookies sammeln. Mehr dazu in unserer Datenschutzerklärung.