te.ma ist seit dem 01. August 2024 bis auf Weiteres inaktiv und befindet sich im Archiv-Modus. Alle Publikationen sind weiter zugänglich. Der Kommentarbereich ist jedoch abgeschaltet. Bestehende Nutzerkonten bleiben bis 31. Juli 2025 weiter zugänglich, neue Nutzerkonten können nicht mehr angelegt werden. Unser Newsletter wird nicht mehr weiter bespielt.

Wenn KI über deine Kreditwürdigkeit entscheidet

Re-Paper

Wenn KI über deine Kreditwürdigkeit entscheidet

»Consumer Credit-Risk Models Via Machine-Learning Algorithms«

Inhalte

Intro

Geschrieben von Alexandra Kapp

Bei te.ma veröffentlicht 21.08.2023

te.ma DOI https://doi.org/10.57964/1byr-xv11

Geschrieben von Alexandra Kapp
Bei te.ma veröffentlicht 21.08.2023
te.ma DOI https://doi.org/10.57964/1byr-xv11

Der Traum vom eigenen Haus – fast jeder muss hierfür einen Kredit aufnehmen. Doch wie kreditwürdig ist jemand? Khandani und Kollegen forschten bereits 2010 dazu, wie maschinelles Lernen für diese Frage eingesetzt werden kann. Im folgenden Jahrzehnt wurden eine Vielzahl weiterer KI-Modelle zum Kreditscoring vorgestellt, die Grundidee blieb jedoch die gleiche. Wie funktionieren diese Modelle, und welche Chancen und Risiken ergeben sich, wenn sie Entscheidungen über Kreditwürdigkeit treffen?

Der Oscar-prämierte Spielfilm „The Big Short“ über die Finanzkrise 2008 porträtiert die damalige Vergabepraxis von Hauskrediten eindrücklich. Einer der Hauptcharaktere fragt zwei Hypothekenmakler: „Werden [Kredit-]Bewerber jemals abgelehnt?“ Alle Anwesenden lachen. Einer der Makler antwortet: „Wenn sie abgelehnt werden, würde ich meinen Job nicht richtig machen.“ Es wird weiter nachgebohrt: „Selbst wenn sie kein Geld haben?“ Darauf ein anderer Makler: „Meine Firma bietet NINJA-Darlehen an – no income no job (kein Einkommen, kein Job). Ich lasse den Abschnitt über das Einkommen einfach leer. Meiner Firma ist das egal.“

Keine Überprüfung der Bonität durchzuführen, ist offensichtlich hochriskant und kann ein ganzes Bankensystem destabilisieren. Die Beurteilung auf Basis einer subjektiven Bewertung eine*r Berater*in zu treffen ist fehleranfällig, intransparent und im Falle, dass sie voreingenommen ist, sogar diskriminierend. Es liegt somit nahe, auf Basis bestehender Daten und historischer Finanzinformationen der Kund*innen eine Vorhersage über das Ausfallrisiko von Krediten automatisch zu treffen. Dies umfasst nicht nur die einmalige Bewertung bei Vergabe von Krediten, sondern auch die kontinuierliche Berechnung der Wahrscheinlichkeit von Zahlungsrückständen. Wird einem Kunden ein hohes Risiko zugeschrieben, kann die Bank beispielsweise den Kreditrahmen seines Kontos begrenzen oder Zinssätze erhöhen. 

Credit Scoring durch Kreditauskunfteien ist dabei keine Neuheit nach der Finanzkrise. So gibt es beispielsweise die Schufa bereits seit den 1920er Jahren in Deutschland.1 Khandani und Kollegen betrachten im vorliegenden Paper ebenfalls ein klassisches Scoringverfahren einer solchen Kreditauskunftei, den „CScore“. Dieser verwendet noch kein maschinelles Lernen. Die Autoren sehen zwar einen Zusammenhang zwischen dem CScore und Zahlungsrückständen, stellen jedoch fest, dass sich der Score nur langsam bei ändernden Bedingungen des Marktes anpasst. Sie sehen daher Bedarf für präzisere und schnellere Prognosemethoden – und schlagen den Einsatz von KI vor.

Doch womit die KI trainieren? Banken haben eine Reihe detaillierter Daten über ihre Kund*innen, die auch in der Studie von Khandani eingesetzt wurden. Diese beinhalten unter anderem die Anzahl an Krediten und die jeweils ausstehenden Beträge, unterteilt in Kategorien wie Kreditkarten-, Auto- oder Hauskredit. Zusätzlich sind Informationen zu Kontoständen und den gesamten eingehenden und ausgehenden Transaktionen eines Kontos (bzw. einer Kreditkarte) vorhanden. Anhand der eingehenden Transaktionen lässt sich das Einkommen abschätzen, die ausgehenden Transaktionen können weiter in Kategorien (z.B. Supermarkt, Restaurant, Kleidung, Telefonrechnung) unterteilt werden. Grundsätzlich besitzen Banken weitere demographische Informationen wie Alter, Postleitzahl oder die Wohnadresse. Diese wurden in der vorliegenden Studie aus Datenschutzgründen jedoch nicht verwendet.2

Auf Basis dieser Daten bewerten Banken die Bonität von Kund*innen klassischerweise mittels logistischer Regressionsmodelle. Diese können jedoch nur bedingt komplexe Zusammenhänge abbilden, wodurch auch ihre Genauigkeit begrenzt ist. Mit dem dritten „KI-Sommer“ rückten in den 2010er Jahren neue Möglichkeiten für präzisere Modelle auf Basis maschinellen Lernens wieder in den Fokus. 

Khandani und Kollegen verwenden einen Entscheidungsbaum (decision tree) als maschinelles Lernmodell. Ein Entscheidungsbaum besteht dabei aus interpretierbaren Entscheidungsregeln. Wenn ich mich morgens entscheide, mit welchem Transportmittel ich zur Arbeit komme, mache ich dies eventuell unterbewusst ebenfalls anhand eines Entscheidungsbaumes: Regnet es? Ist die Antwort nein, so nehme ich das Fahrrad. Ist die Antwort ja, stelle ich mir die nächste Frage: Hat die Rush Hour bereits begonnen? Ist die Antwort nein, nehme ich das Auto. Ist die Antwort ja, nehme ich die U-Bahn. Dies ist natürlich ein sehr simples Beispiel und Entscheidungsbäume können deutlich komplexere Zusammenhänge abbilden.

Wird ein Entscheidungsbaum mittels maschinellem Lernen erzeugt, wird im ersten Schritt ein Modell „trainiert“, indem es an einzelnen Beispielen lernt. Ein Beispiel ist dabei eine Person und deren Informationen über Konten und Transaktionen (siehe die oben beschrieben verfügbaren Daten). Während der Trainingsphase erhält das Modell zusätzlich den erwarteten Ausgabewert des Beispiels, in diesem Fall die binäre Entscheidung, ob diese Person in den nächsten drei Monaten alle Kreditraten rechtzeitig bezahlt oder ob sie in einen Zahlungsrückstand gerät. Das heißt, es werden beispielsweise die Kontostände und Transaktionen aus Januar 2008 verwendet, um vorherzusagen, ob von Februar bis April 2008 ein Zahlungsrückstand eintreten wird. Anhand dieser Beispiele wird das Modell kalibriert, sodass es nach abgeschlossenem Training Prognosen für bis dahin ungesehene Fälle abgeben kann. Das heißt, es erhält nur noch die Eingabe-Attribute ohne den erwarteten Ausgabewert. 

Die gute Interpretierbarkeit der Entscheidungsregeln ist dabei ein Vorteil von Entscheidungsbäumen im Vergleich zu anderen „Black Box“-Modellen, wie beispielsweise neuronalen Netzen und Deep-Learning-Verfahren, die in den vergangenen Jahren jedoch aufgrund besserer Resultate vielfältig für diesen Anwendungsfall erforscht wurden.3

Nach dem Training evaluieren die Autoren, wie zuverlässig der Entscheidungsbaum vorhersagt, ob jemand in Zahlungsrückstand gerät. Dazu berechnen sie den R2-Wert, der zwischen 0 Prozent (gar kein Zusammenhang) und 100 Prozent (perfekte Vorhersage) liegen kann. Der Entscheidungsbaum erreicht 85 Prozent, was von den Autoren als ein sehr guter Wert eingestuft wird. Sie schließen aus ihren Ergebnissen, dass Machine-Learning-Modelle große Potenziale bieten, um Kreditausfälle zu reduzieren. So ließen sich laut ihren Analysen Kosten von 6 bis 23 Prozent einsparen.

Der Fokus der Publikation von Khandani und Kollegen liegt auf den möglichen positiven Effekten, und sicherlich würden die meisten zustimmen, dass ein stabiles Bankensystem und die Vermeidung weiterer Finanzkrisen wünschenswert sind. Trotzdem sind auch solche Systeme limitiert und bergen Risiken. Kein Modell ist zu hundert Prozent akkurat. Es kann somit zu Fehlentscheidungen führen. Besonders problematisch ist hierbei, wenn die entsprechenden Entscheidungen bestimmte Gruppen diskriminieren.

Zusätzlich ist die Intransparenz solcher Modelle ein Risiko. Es stehen immer mehr Daten über Konsument*innen zur Verfügung, die potenziell für die Bewertung der Kreditwürdigkeit herangezogen werden können. So gibt es beispielsweise bereits Unternehmen4, die unseren „digitalen Fußabdruck“ zum Scoring verwenden. Die Anbieter argumentieren zwar, dass dadurch mehr Menschen als vorher Kredite bekommen könnten: Personengruppen, die aufgrund geringer oder gar keiner Finanzdaten-Historie bisher als zu risikoreich eingestuft wurden, insbesondere Personen aus dem globalen Süden, die nun auch ein positives Scoring erhalten können5. Jedoch führt dies andererseits zu größerer Intransparenz von Entscheidungen. Überspitzt formuliert: Kann ich den Kredit für mein Haus nicht bekommen, weil ich zufällig online das falsche Paar Schuhe gekauft oder den falschen Artikel gelesen habe? 

Um diesem Risiko entgegenzuwirken, hat die Europäische Kommission im Rahmen des im Mai 2023 präsentierten AI Acts Richtlinien für die Entwicklung von vertrauenswürdiger KI entwickelt, bei denen der Anwendungsfall Kreditbewertung explizit als „hohes Risiko“ eingestuft wird und damit strikten Vorgaben unterliegen soll. So muss unter anderem sichergestellt sein, dass Systeme nicht diskriminierend sind, die Privatsphäre gewahrt wird sowie Transparenz und Erklärbarkeit der Modelle gegeben sind. Damit ist in der EU eine klare Positionierung für transparente und erklärbare Modelle gesetzt, selbst wenn dies potenziell zu Lasten der Modellgenauigkeit geht.

Fußnoten
5

Auch in den USA gibt es zu diesem Zeitpunkt bereits eine lange Geschichte von Kreditauskunfteien, anschaulich von  Avery et al. (2003) zusammengefasst.

Das bedeutet nicht, dass diese Daten in der Praxis nicht trotzdem eingesetzt werden. Welche genau, ist oftmals nicht transparent. Es ist zum Beispiel wahrscheinlich, dass die Schufa die Bonität auch anhand der Postleitzahl bestimmt. Siehe z.B. diesen Deutschlandfunk-Beitrag: https://www.deutschlandfunkkultur.de/finanzexperte-dirk-ulbricht-ueber-die-schufa-die-haben-mich-100.html, sowie folgenden Fokus-Artikel: https://www.stern.de/digital/online/schufa-verraet-mehr-ueber-ihren-score---ein-geheimnis-behaelt-sie-fuer-sich-31805088.html

Eine Übersicht bietet beispielsweise Bathmore et al. (2020).

Z.B. ist LenddoEFL eine moderne Variante einer Kreditauskunftei, die anhand von diversen alternativen Datenquellen ein Kreditscoring anbietet. Branch ist eine Smartphone-App, die die Kreditwürdigkeit auf Basis von Smartphonedaten (Anruf- und Nachrichtenhistorie, GPS, Kontakte etc.) ermittelt, zu denen User ihnen Zugriff gewährt haben.

Auch die International Finance Cooperation hat sich in einem Artikel hierzu positiv ausgesprochen sowie Mhlanga (2021) in einer wissenschaftlichen Arbeit.

Re-Paper

Offener Zugang
Offener Zugang bedeutet, dass das Material öffentlich zugänglich ist.
CC BY-NC-SA 3.0
Dieser Artikel ist lizensiert unter einer CC BY-NC-SA 3.0 Lizenz.
Verwandte Artikel

Künstliche neuronale Netze (KNN) sind mathematische Funktionen, die durch die Funktionsweise von Nerven in unserem Gehirn inspiriert sind. Hierbei wird die Signalverarbeitung zwischen einzelnen „künstlichen Neuronen" simuliert. Jedes KNN besteht aus mehreren Schichten dieser Neuronen. Eingehende Signale, wie Beispielsweise Pixel in einem Bild, werden von Schicht zu Schicht weitergeleitet, bis sie in der finalen Schicht eine Ausgabe – 1 oder 0, Katze oder Hund – produzieren. Mehrere Schichten können sich hierbei komplexeren Funktionen annähern.

Das künstliche neuronale Netz findet breite Anwendung in der Bildverarbeitung, um Objekte auf Bildern zu erkennen. Auch Zeitserien, also Daten mit zeitlicher Dimension, können mit künstlichen neuronalen Netzwerken verarbeitet werden, um sie zu vervollständigen oder fortzusetzen. So basieren auch Algorithmen zur Sprachverarbeitung oder zur Wettervorhersage auf künstlichen neuronalen Netzen. Eine großartige Erklärungsreihe zu künstlichen neuronalen Netzen ist auf YouTube zu finden, unter https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi 

Deep Learning ist eine Kategorie maschineller Lernverfahren, die auf besonders tiefen künstlichen neuronalen Netzen basieren. Als tief wird jedes künstliche neuronale Netz bezeichnet, das über mindestens drei Schichten verfügt. Während derartige Modelle Ende des 20. Jahrhunderts aufgrund von limitierenden Rechenkapazitäten noch wenig Anwendung fanden, trifft diese Definition heute auf beinahe jedes künstliche neuronale Netz zu.

Der AI Act (formal „Gesetz über künstliche Intelligenz“) ist ein von der EU-Kommission im April 2021 vorgeschlagenes Gesetz zur Regulierung künstlicher Intelligenz. Es sieht beispielsweise eine Einteilung von KI-Technologien in verschiedene Risikostufen vor (von niedrig bis inakzeptabel), welche mit unterschiedlichen Auflagen verbunden sind. Das EU-Parlament einigte sich im Juni 2023 auf eine Version des Gesetzes, über die es nun mit der EU-Kommision und dem EU-Rat verhandelt. Ende des Jahres 2023 soll das Gesetz verabschiedet werden.

Durch starke Deregulierung der Finanzmärkte in den USA konnten Banken immer mehr Risiken eingehen und damit hohe Gewinne erzielen. Es wurden massenhaft Kredite, insbesondere zum Kauf von Häusern, an Personen ohne finanzielle Sicherheiten vergeben. Diese Kredite wurden zu neuen Finanzprodukten gebündelt und weiterverkauft. Diese „faulen“ Kredite kamen somit in Umlauf und es entstand eine Immobilienblase, die 2008 platzte, als immer mehr Kredite nicht zurückbezahlt werden konnten.

Ein privatwirtschaftliches Unternehmen, das Daten über Privatpersonen und/oder Unternehmen sammelt und aus diesen einen Score über die Kreditwürdigkeit dieser errechnet. Dritte (z.B. Vermietende oder Kreditgebende) können vor Gewährung eines Kredits eine Kreditauskunft von Kunden und Kundinnen vorlangen.

Die logistische Regression ist ein statistisches Modell, mit dem einfache Zusammenhänge abgebildet werden können. Dabei schätzt das Modell z.B. aus Kundeninformationen wie dem aktuellen Kontostand, wie wahrscheinlich zwei Kategorien sind, z.B. ob ein Kunde oder eine Kundin „im Zahlungsrückstand“ bzw. „nicht im Zahlungsrückstand“ ist.

Der R2-Wert oder Determinationskoeffizient kann interpretiert werden als der Anteil der Varianz, der durch das Modell erklärt werden kann. Wird beispielsweise versucht, die Körpergröße von Kindern zu erraten, so wäre ohne zusätzliche Information der Mittelwert aller Körpergrößen im Datensatz der beste Tipp. Ist zusätzlich das Alter der Kinder bekannt, kann ein einfaches Modell erstellt werden, das die Größe der Kinder in Abhängigkeit ihres Alters prognostiziert. Dieses Modell ergibt bessere Resultate als der einfache Mittelwert und dies wird über den R2-Wert ausgedrückt. Beispielsweise sagt ein R2-Wert von 0.7, dass 70 Prozent der Varianz über die Variable Alter nun erklärt werden kann. 30 Prozent Varianz bleiben erhalten, da es keinen perfekten Zusammenhang zwischen Alter und Körpergröße gibt.

Diskussionen
0 Kommentare
Es gibt neue Kommentare!
Te.ma befindet sich im Archiv-Modus und daher ist die Kommentarfunktion deaktiviert.

Noch keine Kommentare

te.ma sammelt keine Cookies. Um mit der Allgemeinen Datenschutzgrundverordnung (DSGVO) übereinzustimmen, müssen wir dich aber informieren, dass von uns eingebundene externe Medien (z.B. von YouTube) möglicherweise Cookies sammeln. Mehr dazu in unserer Datenschutzerklärung.