Deringer, C. (2024). Political opinion analysis and figure of speech detection : Topic and opinion type classification in the political context; alliteration and hyperbole detedction [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.102700
E194 - Institut für Information Systems Engineering
-
Date (published):
2024
-
Number of Pages:
111
-
Keywords:
Natural Language Processing; Text Analysis
en
Abstract:
Im Rahmen dieser Arbeit wurden vier verschiedene Probleme im Kontext von deutschsprachigen politischen Aussagen und der deutschen Sprache im Allgemeinen behandelt.Diese sind die Klassifizierung von Themen und Meinungstypen und die Erkennung von Alliterationen und Hyperbeln. Die meisten Experimente wurden mit einem Datensatz durchgeführt, der basierend auf den Protokollen des österreichischen Nationalrates erstellt wurde und rund 65.000 politische Aussagen enthält.Der gewählte Ansatz für die Themenerkennung baut auf der Extrahierung relevanter Begriffe aus dem Wikipedia Artikel zu einem Thema auf. Die Resultate wurden händisch evaluiert, die Genauigkeit war im Falle von den Themen "Feminismus"(36,39%) und "Flüchtlingskrise in Europa"(19,04%) sehr niedrig, im Fall von dem Thema "Klimawandel" (89,02%) jedoch gut.Der Ansatz, der für die Klassifizierung von Meinungstypen verfolgt wurde, stammt von Othman et al. [Using NLP Approach for Opinion Types Classifier, Othman et al.,2015] und wurde für die englische Sprache entwickelt. Das Ziel der Experimente war es herauszufinden, ob der Ansatz auch für die deutsche Sprache funktioniert. Die Evaluierung zeigte, dass die Genauigkeit im Falle von Meinungen im Positiv vergleichbar ist (76,60%vs 71,00%), das war jedoch nicht der Fall für Meinungen, die den Komparative (78,30%vs 44,00%) oder Superlativ (82,10% vs 44,00%) verwenden.Die Erkennung von Alliterationen war erfolgreich bei der Verwendung eines Datensatzes der 605 Alliterationen enthält, eine Genauigkeit von 99,33% wurde erreicht. Es wurden noch drei zusätzliche Experimente auf freien Text durchgeführt, hier wurde eine durchschnittliche Genauigkeit von 53,83% erreicht, das Minimum war 30,00%. Der Ansatz verwendet den Kölner Phonetik Algorithmus der von Postel [Die Kölner Phonetik - Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse,Postel, 196] entwickelt wurde und kombiniert ihn mit zusätzlichen Regeln.Für die Erkennung der Hyperbeln wurde ein existierender Ansatz für die englische Sprache,der von Troiano et al. [A computational exploration of exaggeration, Troiano et al., 2018] entwickelt wurde und auf semantischen Eigenschaften basiert, für die deutsche Sprache implementiert. An das Problem wurde mit überwachtem Lernen herangegangen, es wurde als ein binäres Klassifikationsproblem definiert. Die Resultate wurden im Hinblick auf Genauigkeit (76,00% vs 52,23%), Trefferquote (76,00% vs 38,52%), Treffergenauigkeit(72,00% vs 68,90%) und F1-Score (76,00% vs 41,11%) verglichen.
de
In the scope of this work, four different problems have been studied in the context of German political statements and the German language in general, namely topic classification, opinion type classification, alliteration detection, and hyperbole detection.Most of the experiments were conducted using a dataset that was created based on protocols of the Austrian national council containing around 65000 political statements.The topic classification was performed by extracting topic related terms from the Wikipedia article on a certain topic. It was manually evaluated and led to results that leave room for improvement, as the precision regarding the topics feminism (36.39%) and European migrant crisis (19.04%) showed. In the case of climate change, a precision of 89.02% was achieved.The approach that was implemented for opinion type classification is based on part-of speechtagging and was proposed and implemented for the English language by Othman etal. [Using NLP Approach for Opinion Types Classifier, Othman et al., 2015]. The goal ofthe experiments was to show whether the approach is applicable to the German languageas well when using a part-of-speech tagger for the German language and the respectivetags. The evaluation showed that the performance of this approach is comparable interms of precision in the case of the opinionated statements (76.60% vs 71.00%). It was not the case for comparative (78.30% vs 44.00%) and superlative opinionated statements(82.10% vs 44.00%).In the case of alliteration detection, a precision of 99.33% was achieved on an alliteration dataset containing 605 alliterations. Three additional experiments were performed onfree text, where an average precision of 53.83% was achieved, with 30.00% being the worst case. The approach utilizes the Cologne Phonetics algorithm by Postel [Die Kölner Phonetik - Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse, Postel, 1969] and combines it with additional rules.For hyperbole detection, an existing approach for the English language by Troiano etal. [A computational exploration of exaggeration, Troiano et al., 2018] based on the computation of semantic features has been implemented for the German language. It was defined as a supervised machine learning problem; a binary classification task. The results were compared in terms of precision (76.00% vs 52.23%), recall (76.00% vs 38.52%),accuracy (72.00% vs 68.90%) and F1-score (76.00% vs 41.11%). The performance was only comparable in terms of accuracy.