Recognition of differences between two binary black-box classifiers to create explanations using model-agnostic methods

Staufer, Andreas

doi:10.34726/hss.2022.85400

Datensatz Zitierlink:

https://doi.org/10.34726/hss.2022.85400
http://hdl.handle.net/20.500.12708/19266

Titel:

Recognition of differences between two binary black-box classifiers to create explanations using model-agnostic methods

Zitat:

Staufer, A. (2021). Recognition of differences between two binary black-box classifiers to create explanations using model-agnostic methods [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.85400

reposiTUm-DOI:

10.34726/hss.2022.85400

CatalogPlus:

AC16416189

Publikationstyp:

Hochschulschrift - Diplomarbeit

Sprache:

Englisch

Autor_innen:

Staufer, Andreas

Betreuer_in:

Rauber, Andreas

Organisationseinheit:

E194 - Institut für Information Systems Engineering

Datum (veröffentlicht):

2021

Umfang:

142

Keywords:

Erklärbare künstliche Intelligenz; erklärbare KI; Black Box; genetischer Algorithmus; interpretierbares maschinelles Lernen; modelagnostische Methode

Explainable Artificial Intelligence; XAI; Black Box; Genetic Algorithm; Interpretable Machine Learning; Model-Agnostic Method

Abstract:

Der vermehrte Einsatz von Black Boxes als Entscheidungssysteme in wichtigen Bereichen unseres Lebens steht in der Kritik. Black Boxes besitzen die unerwünschte Eigenschaft,dass deren Entscheidungsgrundlage für einen Menschen nicht nachvollziehbar ist. Interpretierbare Resultate sind jedoch aus verschiedenen Gründen wie rechtlichen, ethischen und sicherheitstechnischen Aspekten notwendig. Daher wurden unterschiedliche Methoden entwickelt und vorgestellt, um Erklärungen für die Entscheidungen einer einzelnen Black Box zu liefern. Der LORE-Ansatz ist eine vielversprechende modell-agnostische Methode,um die Ergebnisse der Black Box für einen bestimmten Fall verständlich zu erklären.Modell-agnostische Methoden sind jedoch darauf ausgelegt, die Ergebnisse eines einzelnen Black Box-Modells zu interpretieren. Wir stellen DiRo2C vor, um die unterschiedlichen Entscheidungen zweier binärer Black Box Klassifizierer zu erklären.Unser Ansatz verwendet einen modifizierten genetischen Algorithmus von LORE, umeinen synthetischen ausgewogenen Datensatz generieren zu können. DiRo2C verwendet diesen generierten Datensatz, um einen Klassifizierer zu trainieren, der die lokalen Unterschiede nahe einer bestimmten Instanz zwischen den Black Boxen erkennt. Durch Auswahl verschieden positionierter Instanzen und Generierung von Datensätzen, kann ein globaler Explainer trainiert werden. Dazu wird ein erklärbarer, auf einem Entscheidungsbaum basierenden Klassifizierer verwendet. Der Klassifizierer kann ebenfalls durch Anwendung eines beliebigen erklärbaren KI (Künstliche Intelligenz)-Ansatzes interpretiert werden.DiRo2C unterstützt das Training eines binären Klassifizierer, der unterschiedliche Ergebnisse zwischen den Black Boxen vorhersagt, und einen Multiklassen-Prädiktor, der jede mögliche Kombination der binären Black Box-Ergebnisse vorhersagt. Der modifizierte genetische Neighborhood Algorithmus wurde gegen andere Strategien getestet. Unsere Simulationen und Experimente zeigen, dass der binäre Klassifizierer, der durch unserenmodifizierten genetischen Ansatz trainiert wird, andere implementierte Lösungen in Bezug auf Genauigkeit und Qualität der erkannten Unterschiede weit übertrifft.Wir evaluieren die Leistung der Klassifizierer, die auf Basis der verschiedenen Datenansätze für drei verschiedene Datensätze trainiert werden, indem wir eine stratifizierte10-fach-Kreuzvalidierung anwenden. Darüber hinaus verwenden wir Metriken wie Accuracy, F1-Score und Pearson Correlation Coefficient. Wir manipulieren eine Black Box, indem wir ein bestimmtes Attribut aller Instanzen ändern, um Unterschiede zwischen den Black Boxen zu erzwingen. Die gefundenen Unterschiede werden ebenfalls auf Korrektheit überprüft und ob der Klassifikator die tatsächlichen Unterschiede erkennt.

The increased use of black boxes as decision systems, especially in crucial areas of our lives, is under criticism. Black boxes have the undesirable characteristic that the basis formaking decisions is incomprehensible for a human being. However, interpretable resultsare necessary for different reasons like legal, ethical, and safety aspects. Therefore, various methods have been developed and proposed to provide explanations for the decision of asingle black box. The LORE approach is a promising model-agnostic method to explain the results of the black box for a particular instance understandably. But, model-agnostic methods are designed to interpret the results of a single black box model. We propose DiRo2C to recognize the decision differences between two binary black box classifiers,which is often necessary for practice.Our approach uses a modified genetic algorithm from LORE to generate a synthetic balanced dataset. DiRo2C uses this generated diff-dataset to train a diff-classifier that recognizes the local differences close to a specific instance between the black boxes.By selecting different located instances and the generation of the diff-datasets a globalexplainer can be trained. It provides an explainable decision tree-based classifier wherethe decision tree contains the various decision rules. The decision tree is up to a certain complexity inherently interpretable. The classifier may further be interpreted by any Explainable Artificial Intelligence (XAI) approach. DiRo2C supports the training ofa binary diff-classifier that decides if the black boxes predict different results and amulticlass predictor that predicts every possible combination of the binary black boxes results. The modified genetic neighborhood algorithm was evaluated against various other data approaches. Our simulations and experiments show that the binary classifier trained by our local modified genetic data generation approach outperforms other implementedsolutions regarding accuracy and quality of detected differences.We evaluate the performance of the classifiers, which are trained based on the variousdata approaches for three different datasets by applying stratified 10-fold cross-validation.In addition, we are using performance metrics like Accuracy, F1-score, and Pearson Correlation Coefficient. We manipulate one black box by changing a particular feature of all instances to create differences between the black boxes. The found differences are also evaluated for correctness and whether the classifier recognizes the actual differences.

Weitere Information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

Lizenz:

Urheberrechtsschutz

Enthalten in den Sammlungen:

Thesis