te.ma ist seit dem 01. August 2024 bis auf Weiteres inaktiv und befindet sich im Archiv-Modus. Alle Publikationen sind weiter zugänglich. Der Kommentarbereich ist jedoch abgeschaltet. Bestehende Nutzerkonten bleiben bis 31. Juli 2025 weiter zugänglich, neue Nutzerkonten können nicht mehr angelegt werden. Unser Newsletter wird nicht mehr weiter bespielt.

Wie fair kann KI sein?

Inhalte

Intro

Geschrieben von Benedikt Höltgen

Bei te.ma veröffentlicht 01.07.2023

te.ma DOI https://doi.org/10.57964/c8v9-7615

Geschrieben von Benedikt Höltgen
Bei te.ma veröffentlicht 01.07.2023
te.ma DOI https://doi.org/10.57964/c8v9-7615

„Eine Software wird landesweit genutzt, um zukünftige Straftäter vorherzusagen. Und sie benachteiligt Schwarze“, titelten die Investigativjournalisten von ProPublica am 23. Mai 2016. Ihre statistischen Analysen scheinen zu belegen, dass ein in Strafprozessen genutztes KI-System Schwarze systematisch benachteiligt. Nicht zuletzt dieser Artikel entfachte eine akademische Debatte über Fairness-Kriterien für KI-basierte Algorithmen. Kleinberg und Kollegen zeigen, dass es unter normalen Bedingungen mathematisch unmöglich ist, mehrere solcher Fairness-Kriterien gleichzeitig zu erfüllen.

In vielen Bereichen werden zunehmend KI-basierte Syteme für Risikovorhersagen genutzt, die großen Einfluss auf Betroffene haben können.1 So wird in Österreich seit Jahren ein Algorithmus zur Einschätzung von Arbeitsmarktchancen kontrovers diskutiert. Dieser Algorithmus kann auch über den Zugang zu Schulungen entscheiden – und steht in der Kritik, Frauen zu benachteiligen.2 Das eingangs erwähnte US-System COMPAS soll das Rückfallrisiko von Straftätern vorhersagen und kann unter anderem die Härte von Strafmaßen beeinflussen. 

Solche Systeme für Risikovorhersagen teilen Personen auf Basis bestimmter Attribute in Risikokategorien (von niedrig bis hoch) ein, welchen wiederum Wahrscheinlichkeiten zugeordnet werden. Welche Attribute dabei genutzt werden, hängt insbesondere von der Verfügbarkeit von Daten sowie von gesetzlichen Rahmenbedingungen ab. COMPAS beispielsweise nutzt 137 Attribute, die unter anderem Informationen zu Vorstrafen und Wohnverhältnissen beinhalten. 

Um Risikovorhersagen statistisch auszuwerten, wie von ProPublica getan, wird ein „historischer“ Datensatz über tatsächliche Personen benötigt. Dieser muss für jede Person neben den Attributen auch die Information enthalten, ob das vorherzusagende Ereignis eingetreten ist – im Fall von COMPAS, ob die Person innerhalb von zwei Jahren eine weitere Straftat begangen hat. ProPublicas Analyse auf einem historischen Datensatz ergab: Unter den nicht rückfälligen Straftätern wurde Schwarzen durchschnittlich ein höheres Risiko zugeschrieben als Weißen – das erscheint unfair.

Das hier betrachtete Fairness-Kriterium (für Schwarze/Weiße) vergleicht zwei Personengruppen innerhalb eines historischen Datensatzes.3 Der Datensatz kann zusätzlich in eine positive und eine negative Klasse unterteilt werden: Die negative Klasse beinhaltet die Personen, bei denen das vorhergesagte Ereignis nicht eingetreten ist, die also nicht rückfällig geworden sind. Die positive Klasse wiederum umfasst die Personen, bei denen das vorhergesagte Ereignis eingetreten ist, die also rückfällig geworden sind. Das von ProPublica untersuchte Fairness-Kriterium wird dann im Artikel von Kleinberg und Kollegen als Balance der negativen Klasse bezeichnet: Die durchschnittliche Risikovorhersage für nicht rückfällig werdende Straftäter soll innerhalb der beiden Gruppen gleich hoch sein. Analog fordert das Kriterium Balance der positiven Klasse, dass die durchschnittliche Risikovorhersage von rückfälligen Straftätern beider Gruppen gleich hoch sein soll. Nach Kleinberg und Kollegen fassen diese beiden Kriterien die folgende Prämisse: Personen, die das gleiche Verhalten zeigen (rückfällig werden oder nicht), sollten auch gleich behandelt werden, unabhängig von ihrer jeweiligen Gruppenzugehörigkeit. 

Northpointe, die Firma hinter dem COMPAS-System, hob dagegen ein drittes Fairness-Kriterium hervor: Ihre Risikovorhersagen sind auf beiden Gruppen kalibriert. Das bedeutet beispielsweise, dass von den Weißen und Schwarzen, denen ein 60-prozentiges Rückfallrisiko vorausgesagt wird, tatsächlich jeweils 60 Prozent rückfällig werden – dass also von 100 Personen 60 tatsächlich rückfällig werden. Allgemein sind Risikovorhersagen kalibriert, wenn jeder Risikokategorie die korrekte Wahrscheinlichkeit zugeordnet wird. „Korrekt“ bedeutet hier, dass die vorhergesagte Wahrscheinlichkeit dem Anteil der positiven Fälle im betrachteten Datensatz entspricht. Dies entspricht unserem intuitiven Verständnis einer guten Risikovorhersage und stellt laut Kleinberg und Kollegen sicher, dass Vorhersagen für beide Gruppen dasselbe bedeuten. 

Northpointe argumentierte nach dem ProPublica-Report, dass es erfahrungsgemäß kaum möglich sei, die drei Kriterien (Balance der positiven und negativen Klasse sowie Kalibration auf beiden Gruppen) gleichzeitig zu erfüllen. Dass dies nicht nur eine Ausflucht war, wird aus dem Unmöglichkeitssatz von Kleinberg und Kollegen ersichtlich. Tatsächlich können sie nämlich nur unter einer von zwei Extrembedingungen gleichzeitig erfüllt werden, welche jedoch beide sehr unrealistisch sind: Eine Extrembedingung wäre, dass im Datensatz der Anteil der positiven Fälle (also der rückfälligen Straftäter) in beiden Gruppen genau gleich ist, also dass beispielsweise 30 Prozent der Schwarzen und 30 Prozent der Weißen rückfällig werden. Eine solche Übereinstimmung ist aber gerade in Fällen systematischer Benachteiligung von Bevölkerungsgruppen äußerst selten. Die andere Extrembedingung wäre, dass für jede einzelne Person richtig vorhergesagt wird, ob sie rückfällig wird oder nicht, was utopisch ist.4 Während solche Unmöglichkeitssätze meist von beschränkter direkter Relevanz für die Praxis sind, helfen sie, Probleme besser zu verstehen. Im Artikel wird zudem noch eine allgemeinere Version des Satzes gezeigt: Um die drei Kriterien auch nur annähernd zu erfüllen, muss eine der beiden Extrembedingungen ungefähr erfüllt sein.

Wie Kleinberg und Kollegen anmerken, gilt der Unmöglichkeitssatz auch für menschliche Vorhersagen. Algorithmen sind also nicht an sich unfairer als Menschen. Die große Reichweite von Algorithmen macht ihre genaue Prüfung jedoch besonders wichtig5 – auch wenn man nicht fair bezüglich aller wünschenswerten Kriterien sein kann. Welche Fairness-Kriterien sind uns also wichtig? Welche Verfahren sollen überhaupt automatisiert und welche Daten dürfen dafür genutzt werden? Diese und weitere Fragen müssen nicht nur akademisch, sondern insbesondere auch gesellschaftlich diskutiert werden. Auch hierzulande sind diese Debatten aktuell wie nie, beispielsweise in Bezug auf den AI Act der EU6 oder Urteile des deutschen Verfassungsgerichts zu Polizeibefugnissen.7 

Wie ging es nach dem ProPublica-Bericht mit COMPAS weiter? In Wisconsin beispielsweise bestätigte der Supreme Court die Nutzung als rechtmäßig – unter der Bedingung, dabei unter anderem die geäußerten Fairness-Bedenken zu erwähnen.8 Dass auch KI-basierte Algorithmen fehlbar sind und diskriminieren können, sollte bei aller Hoffnung auf objektivere oder genauere Vorhersagen nicht unter den Tisch fallen.

Fußnoten
8

Das anfangs genannte Zitat lautet im Original: „There’s software used across the country to predict future criminals. And it’s biased against blacks.“ (Julia Angwin u.a.: Machine Bias. In: ProPublica, 23. Mai 2016, abgerufen am 08. Juni 2023.) 

Chris Köver: Automatisierte Entscheidungen: Gericht macht Weg für den AMS-Algorithmus wieder frei. In: Netzpolitik.org, 22. Dezember 2020, abgerufen am 21. Juni 2023.   

Ansätze, Fairness direkt auf individueller Ebene zu definieren, erweisen sich als schwieriger als auf kollektiver Ebene. In den letzten Jahren wird versucht, die Kluft zwischen Individuen und Gruppen zu überbrücken. Auch der Autor dieses Intros forscht in diesem Bereich.

Leser*innen, die ihre Schulmathekenntnisse (ohne Leistungskurs) auf die Probe stellen möchten, sei der informelle Überblick des Beweises zu Beginn von Abschnitt 2 im arXiv Preprint (https://arxiv.org/abs/1609.05807) nahegelegt.

Hierzu sei Cathy O'Neils Buch „Weapons of Math Destruction“ empfohlen, trotz ihres Fokus auf die USA.

Matthias Spielkamp: EU-Parlament stimmt für Schutz vor schädlichen KI-Systemen. In: Algorithm Watch, 15. Juni 2023, abgerufen am 30. Juni 2023.

So verbot das Bundesverfassungsgericht kürzlich besonders umfassende Datenanalysen durch die Polizei aufgrund eines unverhältnismäßigen Eingriffs in die „informationelle Selbstbestimmung“: Daniel Leisegang: Automatisierte Datenanalyse für die vorbeugende Bekämpfung von Straftaten ist verfassungswidrig. In: Netzpolitik.org, 16. Februar 2023, abgerufen am 30. Juni 2023. 

Die Debatte über die Rechtmäßigkeit und Zweckmäßigkeit solcher Anwendungen ist jedoch weiterhin aktuell: Dasha Pruss: How Recidivism Risk Assessments Impede Justice. In: Medium, 12. April 2023, abgerufen am 30. Juni 2023. 

Re-Paper

Offener Zugang
Offener Zugang bedeutet, dass das Material öffentlich zugänglich ist.
Verwandte Artikel

Ein Unmöglichkeitssatz ist eine mathematisch beweisbare Unmöglichkeit. Eine solche ist zum Beispiel die Aussage, dass es keine gerade Primzahl größer als 2 geben kann.

Der AI Act (formal „Gesetz über künstliche Intelligenz“) ist ein von der EU-Kommission im April 2021 vorgeschlagenes Gesetz zur Regulierung künstlicher Intelligenz. Es sieht beispielsweise eine Einteilung von KI-Technologien in verschiedene Risikostufen vor (von niedrig bis inakzeptabel), welche mit unterschiedlichen Auflagen verbunden sind. Das EU-Parlament einigte sich im Juni 2023 auf eine Version des Gesetzes, über die es nun mit der EU-Kommision und dem EU-Rat verhandelt. Ende des Jahres 2023 soll das Gesetz verabschiedet werden.

Diskussionen
2 Kommentare
Es gibt neue Kommentare!
Te.ma befindet sich im Archiv-Modus und daher ist die Kommentarfunktion deaktiviert.
Total 1

Ich finde es interessant, dass durch die Einführung von KI-Systemen neue Perspektiven und Methoden in den Diskurs um Diskriminierung einfließen. Vielleicht hat das zur Folge, dass auch bei menschliche Entscheidungen in Zukunft genauer überprüft wird, ob sie bestimmten Fairness-Kriterien genügen. 

Total 1

Vielen Dank für diesen informativen Artikel! Ich denke, es ist wichtig, sich mit den Fairness-Kriterien für KI-Algorithmen auseinanderzusetzen und deren Auswirkungen auf benachteiligte Gruppen zu erkennen.

So wie ich die Kalibrierung verstehe, geht es primär darum, dass die Vorhersagen des Algorithmus mit den tatsächlichen Ergebnissen übereinstimmen. Obwohl die Kalibrierung wichtig ist, um präzise Vorhersagen zu machen, ist sie nicht der einzige Faktor für Fairness.

Die Balance der positiven und negativen Klasse kann jedoch einen großen Beitrag zur Fairness leisten. Wenn Personen mit dem gleichen Verhalten unabhängig von ihrer Gruppenzugehörigkeit gleich behandelt werden, können wir Diskriminierung reduzieren. Eine sorgfältige Berücksichtigung dieser Kriterien kann dazu beitragen, dass KI-Algorithmen gerechter und fairer werden.

Fairness kann jedoch nicht allein durch technische Maßnahmen erreicht werden. Es erfordert auch eine breitere gesellschaftliche Auseinandersetzung mit unseren Werten und Vorurteilen. Wir müssen gemeinsam dafür sorgen, dass die verwendeten Daten repräsentativ und frei von Vorurteilen sind, um eine gerechtere Zukunft zu schaffen.

te.ma sammelt keine Cookies. Um mit der Allgemeinen Datenschutzgrundverordnung (DSGVO) übereinzustimmen, müssen wir dich aber informieren, dass von uns eingebundene externe Medien (z.B. von YouTube) möglicherweise Cookies sammeln. Mehr dazu in unserer Datenschutzerklärung.