Reichel, M. (2022). Explainability in hate speech detection [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.91421
E194 - Institut für Information Systems Engineering
-
Date (published):
2022
-
Number of Pages:
57
-
Keywords:
Explainability; Hate Speech Detection; NLP
en
Abstract:
Diese Arbeit beschäftigt sich mit Methoden der Erklärbarkeit von Natürlicher Sprachverarbeitung am Beispiel vom Problem der Erkennung von Hassreden und beleidigenden Inhalten. Nachdem eine Einführung in das Hassrede-Problem gegeben wurde, wird zuerst ein Paper über unsere Baseline-Systeme für solch eine Gemeinschaftsaufgabe studiert. Danach werden die Konzepte der sogenannten Rationale und auf Rationalen basierenden Erklärbarkeitsmetriken präsentiert, welche anschließend benutzt werden, um nicht nur die Performance, sondern auch die Erklärbarkeitsmetriken Plausibilität und Treuhaftigkeit von drei Deep-Learning Modellen mit denen von händisch erstellten regelbasierten Systemen auf den beiden Aufgaben der Erkennung von Texten, die Frauen und Homosexuelle angreifen, zu vergleichen. Für diese Aufgaben wird der Datensatz HateXplain in kleinere Datensätze aufgeteilt, die für die Erkennung von Hass und Beleidigungen gegen jene Zielgruppen erzeugt wurden. Zudem werden auch die menschlichen Annotationen bezüglich ihrer Erklärbarkeit zum Vergleich ausgewertet. Am Ende wird eine qualitative Fehleranalyse durchgeführt. Wir lernen, dass Regeln besser in der Präzision und Treuhaftigkeit performen und Deeplearning-Modelle im F1-Score, manche menschlich-annotierten Rationale nicht unbedingt als Gold-Label betrachtet werden sollten und gut-performende Regeln nicht notwendigerweise auch Regeln sind, welche gut-erklärende Rationale zurückgeben. Dennoch kann man sagen, wenn jene Regeln in solch einer Form entwickeln wurden, dass sie gute Rationale berechnen, dann kann deren Leistung der Erklärbarkeit höher sein als jene von Deep-Learning Modellen, mit und ohne Attention-Mechanismus. Warnung: Diese Arbeit enthält beleidigende Wörter.
de
This work examines the explainability of natural language processing on the example of hate speech and offensive content detection. After an introduction to the hate speech task is given, first a paper about our baseline systems on such a shared task is reviewed. Afterwards, the concepts of rationales and rational-based explainability metrics are presented, which are then used to compare not only the performance but also the explainability-metrics plausibility and faithfulness of three deep learning models with those of hand-made rule-based systems on the two tasks of detecting offensive text targeted against women and homosexuals. For these tasks, the dataset HateXplain is processed into smaller datasets specifically for detecting hate and offensive content against these specific target groups. Also, human annotations are evaluated in terms of their explainability for comparison. In the end, an qualitative error analysis is conducted. We learn that rules perform better in precision and faithfulness and deep learning models in F1 score, some human-annotated rationales should not necessarily be viewed as gold labels and well-performing rules are not necessary rules which yield well explaining rationales. However, if the rules are engineered in a way to predict good rationales, explainability performance can be higher than deep learning models with and without attention-based mechanisms. Disclaimer: This work contains profane words.
en
Additional information:
Warnung: Diese Arbeit enthält beleidigende Wörter.