In vielen Bereichen werden zunehmend KI-basierte Syteme für Risikovorhersagen genutzt, die großen Einfluss auf Betroffene haben können.
Solche Systeme für Risikovorhersagen teilen Personen auf Basis bestimmter Attribute in Risikokategorien (von niedrig bis hoch) ein, welchen wiederum Wahrscheinlichkeiten zugeordnet werden. Welche Attribute dabei genutzt werden, hängt insbesondere von der Verfügbarkeit von Daten sowie von gesetzlichen Rahmenbedingungen ab. COMPAS beispielsweise nutzt 137 Attribute, die unter anderem Informationen zu Vorstrafen und Wohnverhältnissen beinhalten.
Um Risikovorhersagen statistisch auszuwerten, wie von ProPublica getan, wird ein „historischer“ Datensatz über tatsächliche Personen benötigt. Dieser muss für jede Person neben den Attributen auch die Information enthalten, ob das vorherzusagende Ereignis eingetreten ist – im Fall von COMPAS, ob die Person innerhalb von zwei Jahren eine weitere Straftat begangen hat. ProPublicas Analyse auf einem historischen Datensatz ergab: Unter den nicht rückfälligen Straftätern wurde Schwarzen durchschnittlich ein höheres Risiko zugeschrieben als Weißen – das erscheint unfair.
Das hier betrachtete Fairness-Kriterium (für Schwarze/Weiße) vergleicht zwei Personengruppen innerhalb eines historischen Datensatzes.
Northpointe, die Firma hinter dem COMPAS-System, hob dagegen ein drittes Fairness-Kriterium hervor: Ihre Risikovorhersagen sind auf beiden Gruppen kalibriert. Das bedeutet beispielsweise, dass von den Weißen und Schwarzen, denen ein 60-prozentiges Rückfallrisiko vorausgesagt wird, tatsächlich jeweils 60 Prozent rückfällig werden – dass also von 100 Personen 60 tatsächlich rückfällig werden. Allgemein sind Risikovorhersagen kalibriert, wenn jeder Risikokategorie die korrekte Wahrscheinlichkeit zugeordnet wird. „Korrekt“ bedeutet hier, dass die vorhergesagte Wahrscheinlichkeit dem Anteil der positiven Fälle im betrachteten Datensatz entspricht. Dies entspricht unserem intuitiven Verständnis einer guten Risikovorhersage und stellt laut Kleinberg und Kollegen sicher, dass Vorhersagen für beide Gruppen dasselbe bedeuten.
Northpointe argumentierte nach dem ProPublica-Report, dass es erfahrungsgemäß kaum möglich sei, die drei Kriterien (Balance der positiven und negativen Klasse sowie Kalibration auf beiden Gruppen) gleichzeitig zu erfüllen. Dass dies nicht nur eine Ausflucht war, wird aus dem
Wie Kleinberg und Kollegen anmerken, gilt der Unmöglichkeitssatz auch für menschliche Vorhersagen. Algorithmen sind also nicht an sich unfairer als Menschen. Die große Reichweite von Algorithmen macht ihre genaue Prüfung jedoch besonders wichtig
Wie ging es nach dem ProPublica-Bericht mit COMPAS weiter? In Wisconsin beispielsweise bestätigte der Supreme Court die Nutzung als rechtmäßig – unter der Bedingung, dabei unter anderem die geäußerten Fairness-Bedenken zu erwähnen.