Recognition of Differences between two Binary Black-Box Classifiers to create Explanations using Model-Agnostic Methods
Autor: | Staufer, Andreas |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2022 |
Předmět: | |
DOI: | 10.34726/hss.2022.85400 |
Popis: | Der vermehrte Einsatz von Black Boxes als Entscheidungssysteme in wichtigen Bereichen unseres Lebens steht in der Kritik. Black Boxes besitzen die unerw��nschte Eigenschaft,dass deren Entscheidungsgrundlage f��r einen Menschen nicht nachvollziehbar ist. Interpretierbare Resultate sind jedoch aus verschiedenen Gr��nden wie rechtlichen, ethischen und sicherheitstechnischen Aspekten notwendig. Daher wurden unterschiedliche Methoden entwickelt und vorgestellt, um Erkl��rungen f��r die Entscheidungen einer einzelnen Black Box zu liefern. Der LORE-Ansatz ist eine vielversprechende modell-agnostische Methode,um die Ergebnisse der Black Box f��r einen bestimmten Fall verst��ndlich zu erkl��ren.Modell-agnostische Methoden sind jedoch darauf ausgelegt, die Ergebnisse eines einzelnen Black Box-Modells zu interpretieren. Wir stellen DiRo2C vor, um die unterschiedlichen Entscheidungen zweier bin��rer Black Box Klassifizierer zu erkl��ren.Unser Ansatz verwendet einen modifizierten genetischen Algorithmus von LORE, umeinen synthetischen ausgewogenen Datensatz generieren zu k��nnen. DiRo2C verwendet diesen generierten Datensatz, um einen Klassifizierer zu trainieren, der die lokalen Unterschiede nahe einer bestimmten Instanz zwischen den Black Boxen erkennt. Durch Auswahl verschieden positionierter Instanzen und Generierung von Datens��tzen, kann ein globaler Explainer trainiert werden. Dazu wird ein erkl��rbarer, auf einem Entscheidungsbaum basierenden Klassifizierer verwendet. Der Klassifizierer kann ebenfalls durch Anwendung eines beliebigen erkl��rbaren KI (K��nstliche Intelligenz)-Ansatzes interpretiert werden.DiRo2C unterst��tzt das Training eines bin��ren Klassifizierer, der unterschiedliche Ergebnisse zwischen den Black Boxen vorhersagt, und einen Multiklassen-Pr��diktor, der jede m��gliche Kombination der bin��ren Black Box-Ergebnisse vorhersagt. Der modifizierte genetische Neighborhood Algorithmus wurde gegen andere Strategien getestet. Unsere Simulationen und Experimente zeigen, dass der bin��re Klassifizierer, der durch unserenmodifizierten genetischen Ansatz trainiert wird, andere implementierte L��sungen in Bezug auf Genauigkeit und Qualit��t der erkannten Unterschiede weit ��bertrifft.Wir evaluieren die Leistung der Klassifizierer, die auf Basis der verschiedenen Datenans��tze f��r drei verschiedene Datens��tze trainiert werden, indem wir eine stratifizierte10-fach-Kreuzvalidierung anwenden. Dar��ber hinaus verwenden wir Metriken wie Accuracy, F1-Score und Pearson Correlation Coefficient. Wir manipulieren eine Black Box, indem wir ein bestimmtes Attribut aller Instanzen ��ndern, um Unterschiede zwischen den Black Boxen zu erzwingen. Die gefundenen Unterschiede werden ebenfalls auf Korrektheit ��berpr��ft und ob der Klassifikator die tats��chlichen Unterschiede erkennt. The increased use of black boxes as decision systems, especially in crucial areas of our lives, is under criticism. Black boxes have the undesirable characteristic that the basis formaking decisions is incomprehensible for a human being. However, interpretable resultsare necessary for different reasons like legal, ethical, and safety aspects. Therefore, various methods have been developed and proposed to provide explanations for the decision of asingle black box. The LORE approach is a promising model-agnostic method to explain the results of the black box for a particular instance understandably. But, model-agnostic methods are designed to interpret the results of a single black box model. We propose DiRo2C to recognize the decision differences between two binary black box classifiers,which is often necessary for practice.Our approach uses a modified genetic algorithm from LORE to generate a synthetic balanced dataset. DiRo2C uses this generated diff-dataset to train a diff-classifier that recognizes the local differences close to a specific instance between the black boxes.By selecting different located instances and the generation of the diff-datasets a globalexplainer can be trained. It provides an explainable decision tree-based classifier wherethe decision tree contains the various decision rules. The decision tree is up to a certain complexity inherently interpretable. The classifier may further be interpreted by any Explainable Artificial Intelligence (XAI) approach. DiRo2C supports the training ofa binary diff-classifier that decides if the black boxes predict different results and amulticlass predictor that predicts every possible combination of the binary black boxes results. The modified genetic neighborhood algorithm was evaluated against various other data approaches. Our simulations and experiments show that the binary classifier trained by our local modified genetic data generation approach outperforms other implementedsolutions regarding accuracy and quality of detected differences.We evaluate the performance of the classifiers, which are trained based on the variousdata approaches for three different datasets by applying stratified 10-fold cross-validation.In addition, we are using performance metrics like Accuracy, F1-score, and Pearson Correlation Coefficient. We manipulate one black box by changing a particular feature of all instances to create differences between the black boxes. The found differences are also evaluated for correctness and whether the classifier recognizes the actual differences. |
Databáze: | OpenAIRE |
Externí odkaz: |