Der Oscar-prämierte Spielfilm „The Big Short“ über die
Keine Überprüfung der Bonität durchzuführen, ist offensichtlich hochriskant und kann ein ganzes Bankensystem destabilisieren. Die Beurteilung auf Basis einer subjektiven Bewertung eine*r Berater*in zu treffen ist fehleranfällig, intransparent und im Falle, dass sie voreingenommen ist, sogar diskriminierend. Es liegt somit nahe, auf Basis bestehender Daten und historischer Finanzinformationen der Kund*innen eine Vorhersage über das Ausfallrisiko von Krediten automatisch zu treffen. Dies umfasst nicht nur die einmalige Bewertung bei Vergabe von Krediten, sondern auch die kontinuierliche Berechnung der Wahrscheinlichkeit von Zahlungsrückständen. Wird einem Kunden ein hohes Risiko zugeschrieben, kann die Bank beispielsweise den Kreditrahmen seines Kontos begrenzen oder Zinssätze erhöhen.
Credit Scoring durch
Doch womit die KI trainieren? Banken haben eine Reihe detaillierter Daten über ihre Kund*innen, die auch in der Studie von Khandani eingesetzt wurden. Diese beinhalten unter anderem die Anzahl an Krediten und die jeweils ausstehenden Beträge, unterteilt in Kategorien wie Kreditkarten-, Auto- oder Hauskredit. Zusätzlich sind Informationen zu Kontoständen und den gesamten eingehenden und ausgehenden Transaktionen eines Kontos (bzw. einer Kreditkarte) vorhanden. Anhand der eingehenden Transaktionen lässt sich das Einkommen abschätzen, die ausgehenden Transaktionen können weiter in Kategorien (z.B. Supermarkt, Restaurant, Kleidung, Telefonrechnung) unterteilt werden. Grundsätzlich besitzen Banken weitere demographische Informationen wie Alter, Postleitzahl oder die Wohnadresse. Diese wurden in der vorliegenden Studie aus Datenschutzgründen jedoch nicht verwendet.
Auf Basis dieser Daten bewerten Banken die Bonität von Kund*innen klassischerweise mittels
Khandani und Kollegen verwenden einen Entscheidungsbaum (decision tree) als maschinelles Lernmodell. Ein Entscheidungsbaum besteht dabei aus interpretierbaren Entscheidungsregeln. Wenn ich mich morgens entscheide, mit welchem Transportmittel ich zur Arbeit komme, mache ich dies eventuell unterbewusst ebenfalls anhand eines Entscheidungsbaumes: Regnet es? Ist die Antwort nein, so nehme ich das Fahrrad. Ist die Antwort ja, stelle ich mir die nächste Frage: Hat die Rush Hour bereits begonnen? Ist die Antwort nein, nehme ich das Auto. Ist die Antwort ja, nehme ich die U-Bahn. Dies ist natürlich ein sehr simples Beispiel und Entscheidungsbäume können deutlich komplexere Zusammenhänge abbilden.
Wird ein Entscheidungsbaum mittels maschinellem Lernen erzeugt, wird im ersten Schritt ein Modell „trainiert“, indem es an einzelnen Beispielen lernt. Ein Beispiel ist dabei eine Person und deren Informationen über Konten und Transaktionen (siehe die oben beschrieben verfügbaren Daten). Während der Trainingsphase erhält das Modell zusätzlich den erwarteten Ausgabewert des Beispiels, in diesem Fall die binäre Entscheidung, ob diese Person in den nächsten drei Monaten alle Kreditraten rechtzeitig bezahlt oder ob sie in einen Zahlungsrückstand gerät. Das heißt, es werden beispielsweise die Kontostände und Transaktionen aus Januar 2008 verwendet, um vorherzusagen, ob von Februar bis April 2008 ein Zahlungsrückstand eintreten wird. Anhand dieser Beispiele wird das Modell kalibriert, sodass es nach abgeschlossenem Training Prognosen für bis dahin ungesehene Fälle abgeben kann. Das heißt, es erhält nur noch die Eingabe-Attribute ohne den erwarteten Ausgabewert.
Die gute Interpretierbarkeit der Entscheidungsregeln ist dabei ein Vorteil von Entscheidungsbäumen im Vergleich zu anderen „Black Box“-Modellen, wie beispielsweise
Nach dem Training evaluieren die Autoren, wie zuverlässig der Entscheidungsbaum vorhersagt, ob jemand in Zahlungsrückstand gerät. Dazu berechnen sie den
Der Fokus der Publikation von Khandani und Kollegen liegt auf den möglichen positiven Effekten, und sicherlich würden die meisten zustimmen, dass ein stabiles Bankensystem und die Vermeidung weiterer Finanzkrisen wünschenswert sind. Trotzdem sind auch solche Systeme limitiert und bergen Risiken. Kein Modell ist zu hundert Prozent akkurat. Es kann somit zu Fehlentscheidungen führen. Besonders problematisch ist hierbei, wenn die entsprechenden Entscheidungen bestimmte Gruppen diskriminieren.
Zusätzlich ist die Intransparenz solcher Modelle ein Risiko. Es stehen immer mehr Daten über Konsument*innen zur Verfügung, die potenziell für die Bewertung der Kreditwürdigkeit herangezogen werden können. So gibt es beispielsweise bereits Unternehmen
Um diesem Risiko entgegenzuwirken, hat die Europäische Kommission im Rahmen des im Mai 2023 präsentierten