te.ma ist seit dem 01. August 2024 bis auf Weiteres inaktiv und befindet sich im Archiv-Modus. Alle Publikationen sind weiter zugänglich. Der Kommentarbereich ist jedoch abgeschaltet. Bestehende Nutzerkonten bleiben bis 31. Juli 2025 weiter zugänglich, neue Nutzerkonten können nicht mehr angelegt werden. Unser Newsletter wird nicht mehr weiter bespielt.

Warum wir interpretierbare maschinelle Lernmodelle brauchen

Re-Paper
Cynthia Rudin2019

Inhalte

Intro

Geschrieben von Solveig Klepper

Bei te.ma veröffentlicht 06.11.2023

te.ma DOI https://doi.org/10.57964/tzf0-g231

Geschrieben von Solveig Klepper
Bei te.ma veröffentlicht 06.11.2023
te.ma DOI https://doi.org/10.57964/tzf0-g231

Im Bereich des maschinellen Lernens werden häufig Black-Box-Modelle verwendet, das heißt Modelle, bei denen nicht ersichtlich ist, wie sie zu ihrem Ergebnis gelangt sind. Cynthia Rudin erläutert in ihrem Paper den Unterschied zwischen Black-Box- und interpretierbaren Modellen und ruft dazu auf, den Forschungsfokus gezielt auf interpretierbare Modelle zu legen.

Inzwischen gibt es viele Ansätze zur Erklärung von Black-Box-Modellen. Je nach Anwendung kommen unterschiedliche Erklärungen in Frage, die sich in unterschiedliche Bereiche aufteilen lassen. 

Feature Attribution Methods ordnen den Eingabe-Attributen einen bestimmten Einfluss auf die finale Entscheidung der Black-Box-Modelle zu. Soll beispielsweise erklärt werden, warum einer Person aufgrund der Berechnung eines solchen Modells ein Kredit verwehrt wurde, analysieren diese Methoden den Einfluss der einzelnen Eingabe-Attribute auf die Entscheidung des Modells. Sie können etwa zu dem Ergebnis kommen, dass das Eingabe-Attribut „Einkommen“ einen positiven Einfluss auf die Entscheidung des Black-Box-Modells genommen hat. Auf Bildern werden die Einflüsse oft in Form einer Heatmap visualisiert.

Grad-CAM ist eine 2019 veröffentlichte Erklärmethode mit dem Ziel, den Einfluss der Eingabepixel für eine bestimmte Ausgabe zu berechnen. Im linken Bild sieht man die Pixeleinflüsse dafür, dass auf dem Bild eine Katze zu sehen ist. Im rechten Bild dasselbe für die Klasse Hund. Rot bedeutet, dass die Pixel einen großen Einfluss auf die Zuweisung zu einer Katze bzw. einem Hund haben. Quelle: https://arxiv.org/pdf/1610.02391.pdf

Eine weitere Methode zur Erklärung von Black-Box-Modellen setzt bei den verfügbaren Trainingsdaten an.1 Angenommen, wir haben ein kompliziertes Modell auf Kreditvergabe-Daten trainiert und möchten nun verstehen, warum es einer bestimmten Person A einen Kredit verwehrt. Eine mögliche Erklärung könnte sein, dass die Person A – aus Modellperspektive – ähnliche Attribute wie die Personen B, C und D aus den Trainingsdaten hat und dass diese ihren Kredit nicht zurückgezahlt haben. Daraus schließt das Modell, dass auch Person A ihren Kredit höchstwahrscheinlich nicht zurückzahlen wird. Auch diese Methode kann auf Bildern visualisiert werden.

Das Bild links wird von dem Modell als „lehmfarbener Spatz“ klassifiziert. Rechts sind die vier (Teil-)Bilder aus den Trainingsdaten zu sehen, die dem Bild am ähnlichsten sind und der Klasse lehmfarbener Spatz zugeordnet wurden.

Manche Erklärungsansätze haben nicht primär das Ziel, ein Black-Box-Modell zu entschlüsseln, sondern zu ermitteln, welche Faktoren geändert werden müssten, damit das gewünschte Ergebnis erzielt werden kann. Wenn eine Person zum Beispiel einen Kredit nicht bekommt, beantworten sogenannte counterfactual explanations, also kontrafaktische Erklärungen, die Frage, was sich ändern müsste, damit sie den Kredit erhalten würde. Hierbei werden ihre Eingabe-Attribute so verändert, dass das Modell dem neu entstandenen Datenpunkt den Kredit erteilen würde. Diese Methoden können jedoch unbefriedigend sein, wenn die Erklärung beispielsweise eine notwendige Änderung ihres Alters von 45 auf 25 Jahre errechnet, oder herauskommt, dass sie den Kredit bekommen würde, wenn sie zwei statt drei Kinder hätte.

Neben Erklärungen für Black-Box-Modelle gibt es zudem Modelle, die per se interpretierbar sind. Sie lernen Entscheidungsregeln, die für den Menschen intuitiv verständlich und zugänglich sind. 

Cynthia Rudin vertritt in ihrem Paper aus dem Jahr 2019 die These, dass solche interpretierbaren Modelle nicht im Gegensatz zu Black-Box-Modellen stehen müssen: Es kann Modelle geben, die sehr akkurat sind, das heißt meistens richtig liegen, aber anders als Black-Box-Modelle auch interpretierbar sind. Damit widerspricht sie der in der Forschung sehr häufig vertretenen These, dass ein akkurates Modell sehr komplexe Entscheidungsregeln lernen muss und somit nicht interpretierbar sein kann.

Rudin zeigt auf, dass  gerade in Bereichen der Datenanalyse interpretierbare Modelle helfen könnten, Daten besser zu verstehen. Das wiederum würde zur Entwicklung genauerer Modelle beitragen, da auf Basis dieses Verständnisses besser entschieden werden könnte, welche Datenbestände sich für welche Anwendungen eignen. 

Sie kritisiert, dass durch den Irrglauben, interpretierbare Modelle seien nicht akkurat, zu wenig zu ihnen geforscht werde: Viele interpretierbare Modelle seien veraltet und die Entwicklung fokussiere sich zu stark auf Black-Box-Modelle. Es sei also nicht verwunderlich, dass die neueren Black-Box-Modelle häufig bessere Ergebnisse erzielten als interpretierbare Modelle. Der Vergleich zwischen einem im Jahr 1984 entwickelten interpretierbaren Modell und einem Black-Box-Modell von 2018 sei irreführend.

Ein Faktor, der einen Fortschritt in der Entwicklung von interpretierbaren Modellen bremse, sei zudem, dass sie oft nur anwendungsspezifisch mit Hilfe von Expertenwissen möglich sei. Um zum Beispiel auf medizinischen Daten basierend ein zugleich akkurates und interpretierbares Modell zu entwickeln, ist die Meinung eines Mediziners unerlässlich: Nur er kann beurteilen, welche Entscheidungsregeln, auf denen ein Modell basiert, medizinisch gesehen Sinn macht. Das macht den Prozess aufwändig, zeitintensiv und in vielen Fällen auch teuer. Man sollte jedoch hinterfragen, ob die Entwicklung eines solchen Modells ohne die medizinische Expertise überhaupt sinnvoll und die Anwendung von Black-Box-Modellen in solchen hochriskanten Fragen tragbar ist.

Rudin sieht die Notwendigkeit einer verantwortungsvollen Regulierung von Black-Box-Modellen und verweist auf die im Jahr 2018 in Kraft getretene Datenschutzgrundverordnung (DSGVO). Diese enthält Informationspflichten und Auskunftsrechte, die sich auch auf die Erklärung von Black-Box-Modellen beziehen können. Sie weist darauf hin, dass es für die Datenverarbeiter allerdings ein Leichtes sei, die Erklärung eines Modells zu manipulieren: Für jedes Modell könne ein anderes Modell konstruiert werden, das zwar zu demselben Ergebnis gelange, aber aufgrund anderer Entscheidungsregeln. Auf diese Weise könne vertuscht werden, aufgrund welcher Regeln das Modell ursprünglich zu seiner Vorhersage gelangt sei. 

Der aktuelle Entwurf des AI Acts geht einen wichtigen Schritt weiter und schreibt den Herstellern der KI-Systeme für Risikoanwendungen vor,  ihre Funktionsweise für die Betroffenenen dieser Systeme transparent zu machen. Sie müssen Informationen bereitstellen, wie das entsprechende KI-System zu seinen Entscheidungen gekommen ist, mit welchen Daten es trainiert wurde und wie genau es ist. Im Gesetzesentwurf steht jedoch nichts Genaueres über das Maß an Transparenz und Interpretierbarkeit, das KI-Systemen auferlegt werden soll. Auch geht aus dem Entwurf nicht hervor, welche Informationen genau bereitgestellt werden müssen.

Cynthia Rudin versucht mit ihrer Arbeit dazu zu motivieren, verstärkt an interpretierbaren Modellen zu forschen und auch die Industrie dazu zu motivieren, sich nicht mit erklärbaren Black-Box-Modellen zufrieden zu geben. Sie drückt ihre Sorge darüber aus, dass  Black-Box-Modelle ansonsten weiterhin in solchen sensiblen Bereichen wie beispielsweise der Strafverfolgung oder der Medizin verwendet werden und dort aufgrund ihrer Intransparenz Menschen schaden können. 

Fußnoten
1

Diese Methode wird in der Literatur unter anderem als Explanation-by-Example bezeichnet. 

Re-Paper

Eingeschränkter Zugang
Eingeschränkter Zugang bedeutet, dass das Material nicht ohne weiteres öffentlich zugänglich ist.
Verwandte Artikel

Ein statistisches Modell, das auf Trainingsdaten beruht. Aus diesen Daten lernt das Modell Entscheidungsregeln abzuleiten, indem es die Daten als Eingabe (input) erhält, diese verarbeitet (processing) und schließlich eine Ausgabe (output) produziert. Während des Trainings wird die Modellausgabe mit dem gewünschten Ergebnis verglichen. Bei Abweichung erfolgt eine Aktualisierung des Modells, sodass es beim nächsten Mal eher die richtige Antwort produziert. Sobald ein Modell trainiert wurde, kann es auf neue Daten angewandt werden, indem es diese als Eingabe erhält und idealerweise korrekte Vorhersagen als Ausgabe generiert.

Der AI Act (formal „Gesetz über künstliche Intelligenz“) ist ein von der EU-Kommission im April 2021 vorgeschlagenes Gesetz zur Regulierung künstlicher Intelligenz. Es sieht beispielsweise eine Einteilung von KI-Technologien in verschiedene Risikostufen vor (von niedrig bis inakzeptabel), welche mit unterschiedlichen Auflagen verbunden sind. Das EU-Parlament einigte sich im Juni 2023 auf eine Version des Gesetzes, über die es nun mit der EU-Kommision und dem EU-Rat verhandelt. Ende des Jahres 2023 soll das Gesetz verabschiedet werden.

Die Interpretierbarkeit ist der Grad, bis zu dem ein Mensch die Ursache einer Entscheidung verstehen kann. Bei einem interpretierbaren Modell ist ohne zusätzliche Methoden einfach verständlich, wie die produzierten Ergebnisse zustande kommen. Dagegen ist bei einem nicht-interpretierbaren Modell der Grund für das produzierte Ergebnis nicht für einen Menschen ersichtlich.

Eingabe-Attribute sind Informationen, die einem Modell gegeben werden, um auf deren Basis Vorhersagen oder Entscheidungen zu treffen. Die Auswahl und Qualität der Informationen sind entscheidend für die Genauigkeit des Modells.

Ein Datenpunkt ist ein einzelnes Element eines Datensatzes. In einem Datensatz zur Kreditvergabe entspricht ein Datenpunkt einer einzelnen Person und enthält die zugehörigen Eingabe-Attribute. Bei Bildern wäre ein Datenpunkt ein einzelnes Bild, bei Texten ein einzelnes Wort, ein Satz, Absatz, Kapitel oder Ähnliches.

Im Entwurf der KI-Verordnung werden drei Risiko-Gruppen von KI-Anwendungen unterschieden: minimales, begrenztes und hohes Risiko. Ein minimales Risiko liegt bei vielen KI-Systemen vor, die bereits weit verbreitet sind: Spamfilter, KI-gestützte Videospiele und Bestandsverwaltungssysteme. Hier werden nur gewinge Gefahren für die Nutzer und Nutzerinnen dieser Systeme gesehen. Für KI-Systeme. die einem begrenztes Risiko unterliegen, werden bestimmte Transparenzpflichten gefordert. Eine Person, die mit einem Chatbot interagiert, muss beispielsweise darüber informiert werden, dass sie mit einer Maschine und nicht mit einem Menschen interagiert. Ein hohes Risiko besteht für KI-Anwendungen im Zusammenhang mit Verkehr, Bildung, Beschäftigung und Sozialfürsorge. Die KI-Verordnung fordert von den Anbietern von Hochrisiko-KI-Systemen, eine Liste von Anforderungen zu erfüllen, bevor sie auf den Markt gebracht werden, sowie Informationen über diese Systeme bereitzustellen, um allen Beteiligten Tranzparenz zu gewährleisten.

Diskussionen
0 Kommentare
Es gibt neue Kommentare!
Te.ma befindet sich im Archiv-Modus und daher ist die Kommentarfunktion deaktiviert.

Noch keine Kommentare

te.ma sammelt keine Cookies. Um mit der Allgemeinen Datenschutzgrundverordnung (DSGVO) übereinzustimmen, müssen wir dich aber informieren, dass von uns eingebundene externe Medien (z.B. von YouTube) möglicherweise Cookies sammeln. Mehr dazu in unserer Datenschutzerklärung.