Der Blick in die Black-Box: wie komplexe Modelle erklärbar werden

Re-Paper
Scott M. Lundberg, Su-In Lee2017
Re-Paper

Der Blick in die Black-Box: wie komplexe Modelle erklärbar werden

»A Unified Approach to Interpreting Model Predictions«

Inhalte

Intro

Geschrieben von Alexandra Kapp

Bei te.ma veröffentlicht 06.10.2023

te.ma DOI https://doi.org/10.57964/kt0v-jk84

Geschrieben von Alexandra Kapp
Bei te.ma veröffentlicht 06.10.2023
te.ma DOI https://doi.org/10.57964/kt0v-jk84

Der Einsatz von KI-Modellen stellt oftmals ein Dilemma dar: Sollen sie eine bestmögliche Genauigkeit erzielen oder ist es wichtiger, dass die Ergebnisse transparent und interpretierbar sind? Eine neue Berechnungsmethode soll das Problem lösen und auch bislang undurchsichtige „Black-Box“-KIs erklärbar machen.

Ob zur Bilderkennung, Textgenerierung oder Vorhersage der Kreditwürdigkeit von Bankkund*innen – KI-Modelle werden für eine große Breite an Aufgaben eingesetzt. Sie sind jedoch häufig „Black-Box“-Modelle, das heißt, es ist nicht ersichtlich, wie das Modell zu seinem Ergebnis gelangt ist. Wird beispielsweise ein Modell zur Unterscheidung von Hunden und Katzen anhand eines Datensatzes trainiert, bei dem alle Katzen auf einer Wiese sitzen und alle Hunde in einem Gebäude sind, lernt es potenziell die Unterscheidung anhand des Hintergrunds statt tatsächlicher Merkmale der Tiere. Sobald Katzen in Innenräumen erkannt werden sollen, liefert das Modell keine akkuraten Ergebnisse mehr. Ein solcher Fehler hätte wahrscheinlich keine weitreichenden Implikationen. Schwerwiegender wäre ein Fall, bei dem einer Bankkundin aufgrund ihres Geschlechts oder ihrer Hautfarbe ein Kredit verwehrt wird und nicht ersichtlich ist, dass das Modell anhand dieser Merkmale entscheidet. Diese Gefahr hat auch die EU erkannt und im Rahmen des AI Acts Vorschriften für Transparenz und Erklärbarkeit von KI-Modellen in risikobehafteten Anwendungsfällen verfasst.

KI-Anwendungen, die nicht auf Deep Learning oder anderen Black-Box-Modellen basieren, haben häufig den großen Vorteil, inhärent interpretierbar zu sein. Das bedeutet, dass es für einen Menschen verständlich ist, wie ein Modell zu seinem Ergebnis kommt. Eine lineare Regression ist beispielsweise ein solches interpretierbares Modell. Angenommen, wir wollen ein Modell entwickeln, das uns den Preis eines Hauses prognostiziert. Hierfür gibt es die AttributeAnzahl Räume“, „naheliegender Park (ja/nein)“ und „Anzahl Jahre seit der letzten Renovierung“. Eine lineare Regression könnte diese Gleichung zum Ergebnis haben: 

Hauspreis = 200.000 + 60.000*Anzahl Räume + 50.000*naheliegender Park - 5.000*letzte Renovierung

Für eine Dreizimmer-Wohnung, ohne Park in der Nähe, die vor 10 Jahren renoviert wurde, würde somit ein Preis von 330.000 € prognostiziert werden:

330.000 = 200.000 + 60.000* 3 + 50.000*0 - 5.000*10

An der Gleichung lässt sich der Einfluss jedes Attributs auf den Gesamtpreis als Faktor ablesen. Es kann beispielsweise abgelesen werden, dass jedes weitere Zimmer den prognostizierten Preis um 60.000 € erhöht.

Dieses Modell ist jedoch offensichtlich sehr simpel und kann keine komplexen Zusammenhänge abbilden. Auch wenn interpretierbare Modelle oftmals bereits gute Ergebnisse liefern, können Deep-Learning- oder ähnliche nicht-interpretierbare Modelle deutlich komplexer und damit oftmals genauer werden. Lundberg und Kollegen sehen darin eine steigende Spannung zwischen Genauigkeit und Interpretierbarkeit. Das Forschungsfeld der explainable AI (auch XAI) versucht dieses Dilemma durch Methoden aufzulösen, die im Nachgang Erklärungen für Outputs von nicht-interpretierbaren Modellen ermitteln.1

Ein Ansatz ist dabei, Erklärungen für einzelne Fälle zu finden, sogenannte lokale Erklärungsmethoden, im Gegensatz zu globalen Methoden, die versuchen, das durchschnittliche Verhalten eines Modells wiederzugeben. Bezogen auf unser Hauspreis-Beispiel könnte ein lokales Erklärungsmodell für den prognostizierten Preis einer spezifischen Dreizimmerwohnung ermitteln, dass im Vergleich zu ähnlichen Wohnungen (ähnliches Gebiet, Baujahr und Stockwerk) das Merkmal drei Zimmer“ einen starken Einfluss auf den Preis hat. Bei einem anderen Fall, etwa einem Großraumbüro im Gewerbegebiet, kommt ein lokales Erklärungsmodell auf Basis der Prognosen für ähnliche Gebäude zu dem Schluss, dass hierfür die Anzahl der Zimmer keine relevante Größe ist. Lokale Erklärungsmethoden haben also den Vorteil, dass man nur einen kleinen Ausschnitt der Daten betrachten muss und damit das komplexe Black-Box-Modell mit einem einfachen Modell annähern kann. 

Schematische Darstellung der Funktionsweise von LIME: Die Grafik zeigt schematisch eine komplexe Funktion (blau). Ein lokales Erklärungsmodell für einen bestimmten Fall (rotes Kreuz) wird basierend auf den ähnlichen Fällen (orange Kreuze) gebildet und kann durch eine einfache lineare Funktion (grün) beschrieben werden. Die grüne Gerade kann dann im Gegensatz zu der komplexen blauen Funktion leichter erklärt werden.

Ein populäres lokales Modell ist LIME (Local interpretable model-agnostic explanations).2 Basierend auf den Werten des zu erklärenden Falles wird eine Vielzahl an Variationen erstellt. Beispielsweise werden vier Zimmer anstatt drei gewählt, oder der Wert für „naheliegender Park“ wird auf „ja“ gesetzt. Diese neuen Datenpunkte werden in das Black-Box-Modell gefüttert, um deren jeweilige Ausgabewerte zu ermitteln. Hierdurch entsteht ein neuer Datensatz von Eingabe- und entsprechenden Ausgabewerten. Anhand dessen wird nun ein erklärbares Modell (z.B. eine lineare Regression) erzeugt, das genau wie im vorherigen Beispiel der linearen Regression interpretiert werden kann. Bei der Erstellung des erklärbaren Modells werden dabei Variationen, die unserem zu erklärenden Fall ähnlich sind, stärker gewichtet.

Ein Nachteil von LIME ist jedoch, dass die Erklärung stark variieren kann, je nachdem welche Variationen als ähnlich eingestuft und somit im erklärbaren Modell berücksichtigt werden. Im Gegensatz zu LIME basieren sogenannte Shapley-Werte auf einer fundierten mathematischen Theorie, die dafür sorgt, dass die berechneten Werte für alle Merkmale gleichmäßig verteilt und die Ergebnisse stabiler sind. 

Bereits 1953 führte der US-amerikanische Mathematiker Lloyd Shapley das Konzept der Shapley-Werte ein. Diese waren ursprünglich nicht für die Erklärung von Machine-Learning-Modellen konzipiert, sondern stellten einen spieltheoretischen Ansatz dar, bei dem für jede*n Spieler*in (Merkmal) der gerechte Anteil am Gewinn (Differenz des Vorhersagewerts vom Durchschnitt) bestimmt wird. Ein praktisches Beispiel könnte eine Gruppenarbeit in der Schule sein, bei dem der Gewinn die abschließende Note darstellt, oder ein Haus, das von einem Team an Handwerker*innen gebaut wird und der Lohn der Arbeiter*innen ist der Gewinn. Der gerechte Anteil“ des Gewinns bedeutet in diesem Fall entsprechend der erbrachten Leistung. Um den Beitrag jeder einzelnen Person zu ermitteln, wird der Reihe nach eine Person aus dem Spiel“ entfernt und dieses in der reduzierten Runde gespielt. Die Differenz des nun erzeugten Gewinns zu dem Wert des gesamten Teams wird der zuletzt entfernten Person zugeschrieben.

Da Interaktionen zwischen den Spieler*innen (bzw. Merkmalen) möglich sind, beispielsweise unterstützen sich zwei Personen im Team, oder eine Person lenkt die andere ab, ist dieser Ansatz zu kurz gegriffen. Daher werden bei der Berechnung von Shapley-Werten nicht nur die einzelnen Merkmale entfernt, sondern jede mögliche Kombination von Merkmalen wird betrachtet. Man spricht von allen möglichen „Koalitionen“ der „Spieler“. 

Lundberg und Lee führen Shapley-Werte im Kontext von explainable AI ein – die SHAP-Werte (SHapley Additive exPlanations) sind geboren.

Ein Nachteil von Shapley-Werten ist jedoch, dass die Vielzahl an notwendigen Kombinationen zu deren Berechnung unrealistisch hohe Berechnungszeiten erfordert. Daher verwenden Lundberg und Lee für SHAP optimierte Berechnungen, die Shapley-Werte annähern, aber gleichzeitig schneller zu berechnen und somit besser in der Praxis einsetzbar sind.

Grundsätzlich stellen Erklärungsmodelle jedoch immer nur eine Annäherung dar, können fehlerhaft sein oder zu falschen Interpretationen verleiten und sollten daher mit Vorsicht genossen werden. Interpretierbare Modelle können häufig bereits eine zufriedenstellende Genauigkeit liefern und deren inhärente Interpretierbarkeit ist über Erklärungsmodelle zu bevorzugen. Erklärungsmodelle können vor allem bei der Entwicklung von Deep-Learning-Modellen helfen, Verzerrungen in den Daten aufzudecken oder die Modellarchitektur zu hinterfragen.

Fußnoten
2

 Eine umfangreiche und frei verfügbare Ressource zum Thema XAI ist das Buch Interpretable Machine Learning - A Guide for Making Black Box Models Explainable von Christoph Molnar.

M. T. Ribeiro, S. Singh, C. Guestrin: Why Should I Trust You? In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. https://doi.org/10.1145/2939672.2939778

Re-Paper

Offener Zugang
Offener Zugang bedeutet, dass das Material öffentlich zugänglich ist.
Related Articles

Deep Learning ist eine Kategorie maschineller Lernverfahren, die auf besonders tiefen künstlichen neuronalen Netzen basieren. Als tief wird jedes künstliche neuronale Netz bezeichnet, das über mindestens drei Schichten verfügt. Während derartige Modelle Ende des 20. Jahrhunderts aufgrund von limitierenden Rechenkapazitäten noch wenig Anwendung fanden, trifft diese Definition heute auf beinahe jedes künstliche neuronale Netz zu.

Ein statistisches Modell, das auf Trainingsdaten beruht. Aus diesen Daten lernt das Modell Entscheidungsregeln abzuleiten, indem es die Daten als Eingabe (input) erhält, diese verarbeitet (processing) und schließlich eine Ausgabe (output) produziert. Während des Trainings wird die Modellausgabe mit dem gewünschten Ergebnis verglichen. Bei Abweichung erfolgt eine Aktualisierung des Modells, sodass es beim nächsten Mal eher die richtige Antwort produziert. Sobald ein Modell trainiert wurde, kann es auf neue Daten angewandt werden, indem es diese als Eingabe erhält und idealerweise korrekte Vorhersagen als Ausgabe generiert.

Häufig gleichen maschinelle Lernsysteme einer Black-Box, d.h., dass nicht verständlich ist, wie sie zur Lösung eines Problems gelangt sind. Methoden der Explainable AI (XAI; auf dt.: erklärbare künstliche Intelligenz) sollen transparent und nachvollziehbar machen, wie sie zu ihren Ergebnissen gekommen sind.

Die lineare Regression ist ein statistisches Modell, mit dem einfache Zusammenhänge abgebildet werden können. Dabei schätzt das Modell z.B. aus Attributen eines Hauses wie der Quadratmeterzahl den Hauspreis.

Die Interpretierbarkeit ist der Grad, bis zu dem ein Mensch die Ursache einer Entscheidung verstehen kann. Bei einem interpretierbaren Modell ist ohne zusätzliche Methoden einfach verständlich, wie die produzierten Ergebnisse zustande kommen. Dagegen ist bei einem nicht-interpretierbaren Modell der Grund für das produzierte Ergebnis nicht für einen Menschen ersichtlich.

Modell-agnostisch heißt, dass es auf jedes beliebige Modell angewendet werden kann.

Eingabe-Attribute sind Informationen, die einem Modell gegeben werden, um auf deren Basis Vorhersagen oder Entscheidungen zu treffen. Die Auswahl und Qualität der Informationen sind entscheidend für die Genauigkeit des Modells.

Diskussionen
0 Kommentare
There are new comments!

Neuer Kommentar

Der Ort für deinen Diskussionsbeitrag. Du kannst taggen, linken und Text formatieren. Bitte beachte unsere Community Guidelines.

Du antwortest auf den Beitrag: "Der Blick in die Black-Box: wie komplexe Modelle erklärbar werden".

Noch keine Kommentare

te.ma sammelt keine Cookies. Um mit der Allgemeinen Datenschutzgrundverordnung (DSGVO) übereinzustimmen, müssen wir dich aber informieren, dass von uns eingebundene externe Medien (z.B. von YouTube) möglicherweise Cookies sammeln. Mehr dazu in unserer Datenschutzerklärung.