Im Bereich des maschinellen Lernens werden häufig Black-Box-Modelle verwendet, das heißt Modelle, bei denen nicht ersichtlich ist, wie sie zu ihrem Ergebnis gelangt sind. Cynthia Rudin erläutert in ihrem Paper den Unterschied zwischen Black-Box- und interpretierbaren Modellen und ruft dazu auf, den Forschungsfokus gezielt auf interpretierbare Modelle zu legen.

Inzwischen gibt es viele Ansätze zur Erklärung von Black-Box-Modellen. Je nach Anwendung kommen unterschiedliche Erklärungen in Frage, die sich in unterschiedliche Bereiche aufteilen lassen.

Feature Attribution Methods ordnen den Eingabe-Attributen einen bestimmten Einfluss auf die finale Entscheidung der Black-Box-Modelle zu. Soll beispielsweise erklärt werden, warum einer Person aufgrund der Berechnung eines solchen Modells ein Kredit verwehrt wurde, analysieren diese Methoden den Einfluss der einzelnen Eingabe-Attribute auf die Entscheidung des Modells. Sie können etwa zu dem Ergebnis kommen, dass das Eingabe-Attribut „Einkommen“ einen positiven Einfluss auf die Entscheidung des Black-Box-Modells genommen hat. Auf Bildern werden die Einflüsse oft in Form einer Heatmap visualisiert.

Grad-CAM ist eine 2019 veröffentlichte Erklärmethode mit dem Ziel, den Einfluss der Eingabepixel für eine bestimmte Ausgabe zu berechnen. Im linken Bild sieht man die Pixeleinflüsse dafür, dass auf dem Bild eine Katze zu sehen ist. Im rechten Bild dasselbe für die Klasse Hund. Rot bedeutet, dass die Pixel einen großen Einfluss auf die Zuweisung zu einer Katze bzw. einem Hund haben. Quelle: https://arxiv.org/pdf/1610.02391.pdf

Eine weitere Methode zur Erklärung von Black-Box-Modellen setzt bei den verfügbaren Trainingsdaten an.1 Angenommen, wir haben ein kompliziertes Modell auf Kreditvergabe-Daten trainiert und möchten nun verstehen, warum es einer bestimmten Person A einen Kredit verwehrt. Eine mögliche Erklärung könnte sein, dass die Person A – aus Modellperspektive – ähnliche Attribute wie die Personen B, C und D aus den Trainingsdaten hat und dass diese ihren Kredit nicht zurückgezahlt haben. Daraus schließt das Modell, dass auch Person A ihren Kredit höchstwahrscheinlich nicht zurückzahlen wird. Auch diese Methode kann auf Bildern visualisiert werden.

Das Bild links wird von dem Modell als „lehmfarbener Spatz“ klassifiziert. Rechts sind die vier (Teil-)Bilder aus den Trainingsdaten zu sehen, die dem Bild am ähnlichsten sind und der Klasse lehmfarbener Spatz zugeordnet wurden.

Manche Erklärungsansätze haben nicht primär das Ziel, ein Black-Box-Modell zu entschlüsseln, sondern zu ermitteln, welche Faktoren geändert werden müssten, damit das gewünschte Ergebnis erzielt werden kann. Wenn eine Person zum Beispiel einen Kredit nicht bekommt, beantworten sogenannte counterfactual explanations, also kontrafaktische Erklärungen, die Frage, was sich ändern müsste, damit sie den Kredit erhalten würde. Hierbei werden ihre Eingabe-Attribute so verändert, dass das Modell dem neu entstandenen Datenpunkt den Kredit erteilen würde. Diese Methoden können jedoch unbefriedigend sein, wenn die Erklärung beispielsweise eine notwendige Änderung ihres Alters von 45 auf 25 Jahre errechnet, oder herauskommt, dass sie den Kredit bekommen würde, wenn sie zwei statt drei Kinder hätte.

Neben Erklärungen für Black-Box-Modelle gibt es zudem Modelle, die per se interpretierbar sind. Sie lernen Entscheidungsregeln, die für den Menschen intuitiv verständlich und zugänglich sind.

Cynthia Rudin vertritt in ihrem Paper aus dem Jahr 2019 die These, dass solche interpretierbaren Modelle nicht im Gegensatz zu Black-Box-Modellen stehen müssen: Es kann Modelle geben, die sehr akkurat sind, das heißt meistens richtig liegen, aber anders als Black-Box-Modelle auch interpretierbar sind. Damit widerspricht sie der in der Forschung sehr häufig vertretenen These, dass ein akkurates Modell sehr komplexe Entscheidungsregeln lernen muss und somit nicht interpretierbar sein kann.

Rudin zeigt auf, dass gerade in Bereichen der Datenanalyse interpretierbare Modelle helfen könnten, Daten besser zu verstehen. Das wiederum würde zur Entwicklung genauerer Modelle beitragen, da auf Basis dieses Verständnisses besser entschieden werden könnte, welche Datenbestände sich für welche Anwendungen eignen.

Sie kritisiert, dass durch den Irrglauben, interpretierbare Modelle seien nicht akkurat, zu wenig zu ihnen geforscht werde: Viele interpretierbare Modelle seien veraltet und die Entwicklung fokussiere sich zu stark auf Black-Box-Modelle. Es sei also nicht verwunderlich, dass die neueren Black-Box-Modelle häufig bessere Ergebnisse erzielten als interpretierbare Modelle. Der Vergleich zwischen einem im Jahr 1984 entwickelten interpretierbaren Modell und einem Black-Box-Modell von 2018 sei irreführend.

Ein Faktor, der einen Fortschritt in der Entwicklung von interpretierbaren Modellen bremse, sei zudem, dass sie oft nur anwendungsspezifisch mit Hilfe von Expertenwissen möglich sei. Um zum Beispiel auf medizinischen Daten basierend ein zugleich akkurates und interpretierbares Modell zu entwickeln, ist die Meinung eines Mediziners unerlässlich: Nur er kann beurteilen, welche Entscheidungsregeln, auf denen ein Modell basiert, medizinisch gesehen Sinn macht. Das macht den Prozess aufwändig, zeitintensiv und in vielen Fällen auch teuer. Man sollte jedoch hinterfragen, ob die Entwicklung eines solchen Modells ohne die medizinische Expertise überhaupt sinnvoll und die Anwendung von Black-Box-Modellen in solchen hochriskanten Fragen tragbar ist.

Rudin sieht die Notwendigkeit einer verantwortungsvollen Regulierung von Black-Box-Modellen und verweist auf die im Jahr 2018 in Kraft getretene Datenschutzgrundverordnung (DSGVO). Diese enthält Informationspflichten und Auskunftsrechte, die sich auch auf die Erklärung von Black-Box-Modellen beziehen können. Sie weist darauf hin, dass es für die Datenverarbeiter allerdings ein Leichtes sei, die Erklärung eines Modells zu manipulieren: Für jedes Modell könne ein anderes Modell konstruiert werden, das zwar zu demselben Ergebnis gelange, aber aufgrund anderer Entscheidungsregeln. Auf diese Weise könne vertuscht werden, aufgrund welcher Regeln das Modell ursprünglich zu seiner Vorhersage gelangt sei.

Der aktuelle Entwurf des AI Acts geht einen wichtigen Schritt weiter und schreibt den Herstellern der KI-Systeme für Risikoanwendungen vor, ihre Funktionsweise für die Betroffenenen dieser Systeme transparent zu machen. Sie müssen Informationen bereitstellen, wie das entsprechende KI-System zu seinen Entscheidungen gekommen ist, mit welchen Daten es trainiert wurde und wie genau es ist. Im Gesetzesentwurf steht jedoch nichts Genaueres über das Maß an Transparenz und Interpretierbarkeit, das KI-Systemen auferlegt werden soll. Auch geht aus dem Entwurf nicht hervor, welche Informationen genau bereitgestellt werden müssen.

Cynthia Rudin versucht mit ihrer Arbeit dazu zu motivieren, verstärkt an interpretierbaren Modellen zu forschen und auch die Industrie dazu zu motivieren, sich nicht mit erklärbaren Black-Box-Modellen zufrieden zu geben. Sie drückt ihre Sorge darüber aus, dass Black-Box-Modelle ansonsten weiterhin in solchen sensiblen Bereichen wie beispielsweise der Strafverfolgung oder der Medizin verwendet werden und dort aufgrund ihrer Intransparenz Menschen schaden können.

Fußnoten

Diese Methode wird in der Literatur unter anderem als Explanation-by-Example bezeichnet.

Re-Paper

Warum wir interpretierbare maschinelle Lernmodelle brauchen

Originaltitel

Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead

Autor(en)

Cynthia Rudin

KI und Nachhaltigkeit

Warum wir interpretierbare maschinelle Lernmodelle brauchen

Warum wir interpretierbare maschinelle Lernmodelle brauchen

Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead

Warum wir interpretierbare maschinelle Lernmodelle brauchen

»Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead«

Warum wir interpretierbare maschinelle Lernmodelle brauchen

Sind Algorithmen sexistischer als wir?

Wissen sie, was sie nicht wissen? Über die (Un-)Zuverlässigkeit …

Neuer Kommentar