The importance of explaining machine learning models has significantly grown recently due to the advance of Deep Learning and the application of these models in several fields [ABV+20]. Since most of these models are presented in a black-box matter, it is essential to ensure trustfulness and clarity in their behavior to enable their proper use [TH22]. In this context, LIME [RSG16] is one of the most important tools in the field of XAI due to its satisfactory results in several studies and its model-agnostic trait [HSM+20]. In consideration of the aforementioned, this work evaluates LIME explainability specifically for the task of Relation Extraction and identifies that LIME does not handle this task correctly since it randomly removes words when creating its samples, consequently resulting in the removal of relation entities that characterize a Relation Extraction task. Therefore, this work proposes a solution for the issue by modifying LIME's internal functionality to avoid the removal of the entities in the sampling process. Qualitative and quantitative metrics were used to assess LIME explainability in two separate models for relation extraction: a black-box neural model named AGGCN[GZL19] and a traditional machine learning model, Naive Bayes. The dataset used is SemEval-10 task 8 [HKK+10].The metrics encompass: Faithfulness[DJR+20], including the computation of Sufficiency and Comprehensiveness, Stability[BCL23] comprising Inherent and Parameter Stability, and Global Inference (evaluation of SP-LIME[RSG16]). They are assessed by considering the comparison between the two models .The results showed that LIME rationales appear to be highly influential for the corresponding predictions (faithful rationales) in this experimental configuration. Furthermore, LIME presented inherent stability (confirming the previous study's findings [BCL23]) and exhibited parameter stability for approximately 70% of the tested samples in both models. Moreover, LIME demonstrates underwhelming results for global analysis using SP-LIME, especially for dealing with multi-class problems and textual data. Additionally, the excessive running times of LIME for complex models revealed a significant drawback of the method.
en
Die Bedeutung der Erklärung von Modellen des maschinellen Lernens hat in letzter Zeit aufgrund des Fortschritts des Deep Learning und der Anwendung dieser Modelle in verschiedenen Bereichen stark zugenommen[ABV+20]. Da die meisten dieser Modelle in einer black-box präsentiert werden, ist es wichtig, Vertrauen und Klarheit in ihr Verhalten zu gewährleisten, um ihre ordnungsgemäße Verwendung zu ermöglichen [TH22]. In diesem Zusammenhang ist LIME [RSG16] aufgrund seiner zufriedenstellenden Ergebnisse in mehreren Studien und seiner modellagnostischen Eigenschaft eines der wichtigsten Werkzeuge im Bereich der XAI [HSM+20]. In Anbetracht dessen evaluiert diese Arbeit die Erklärbarkeit von LIME speziell für die Aufgabe der Relationsextraktion und stellt fest, dass LIME diese Aufgabe nicht korrekt behandelt, da er bei der Erstellung seiner Stichproben zufällig Wörter entfernt, was dazu führt, dass Beziehungsentitäten, die eine Relationsextraktionsaufgabe charakterisieren, entfernt werden. Daher wird in dieser Arbeit eine Lösung für dieses Problem vorgeschlagen, indem die interne Funktionalität von LIME so modifiziert wird, dass die Entfernung von Entitäten während des Sampling-Prozesses vermieden wird. Qualitative und quantitative Metriken wurden verwendet, um die Erklärbarkeit von LIME in zwei separaten Modellen zur Relationsextraktion zu bewerten: ein neuronales Black-Box-Modell namens AGGCN [GZL19] und ein traditionelles maschinelles Lernmodell, Naive Bayes. Der verwendete Datensatz ist SemEval-10 Aufgabe 8 [HKK+10].Die Metriken umfassen: Faithfulness[DJR+20], einschließlich der Berechnung von Sufficiency und Comprehensiveness, Stability[BCL23] mit Inherent und Parameter Stability, und Global Inference (Bewertung von SP-LIME[RSG16]). Sie werden anhand des Vergleichs zwischen den beiden Modellen bewertet.Die Ergebnisse zeigten, dass die LIME-Rationale für die entsprechenden Vorhersagen (faithful Rationale) in dieser experimentellen Konfiguration sehr einflussreich zu sein scheint. Darüber hinaus zeigte LIME eine inhärente Stabilität (was die Ergebnisse der vorherigen Studie bestätigt[BCL23]) und wies für etwa 70% der getesteten Proben in beiden Modellen eine Parameterstabilität auf. Darüber hinaus zeigt LIME unterdurchschnittliche Ergebnisse bei der globalen Analyse mit SP-LIME, insbesondere beim Umgang mit Mehrklassenproblemen und textuellen Daten. Außerdem, haben die übermäßigen Laufzeiten von LIME für komplexe Modelle einen erheblichen Nachteil der Methode offenbart.