Zaruba, S. (2021). Using natural language processing to measure the consistency of opinions expressed by politicians [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.80341
E194 - Institut für Information Systems Engineering
-
Date (published):
2021
-
Number of Pages:
108
-
Keywords:
Sentiment Analysis; Natural Language Processing; Opinion Mining
de
Sentiment Analysis; Natural Language Processing; Opinion Mining
en
Abstract:
In dieser experimentellen Studie wird eine Lösung implementiert, um Meinungen, mit hilfe von Techniken aus dem maschinellen überwachten Lernens, aus geschriebenem Text zu extrahieren, um in weiterer Folge deren Konsistenz über die Zeit zu visualisieren. Wir prüfen sowohl die praktische Umsetzbarkeit als auch die Nützlichkeit des implementierten Ansatzes.Wir haben die vom österreichischen Parlament zur Verfügung gestellten Redeprotokolle gesammelt, um zwei Datensätze zu Themen bezüglich Maßnahmen gegen die Verbreitung des Coronavirus zu erzeugen. Um die Einträge für die Datensätze zu gewinnen, haben wir den Rohtext anhand der Satzgrenzen aufgeteilt und relevante Sätze mithilfe einer Schlüsselwortsuche identifiziert. Danach haben wir den Einträgen Meinungslabels per Hand zugewiesen. Anschließend haben wir zwei statistischen Ansätze und drei tiefe Lernnetzwerke verwendet, um die zuvor zugewiesenen Labels mithilfe von maschinellem Lernen zu bestimmen. Wir haben den Vorgang mehrmals wiederholt, um mithilfe einer Monte Carlo Kreuzvalidierung die erzielten Leistungen zu bewerten. Dann haben wirdie vorhergesagten Labels des leistungsstärksten Modells verwendet, um die allgemeine Meinung, sowie die Konsistenz von Meinungen über die Zeit, grafisch darzustellen.Am größeren Datensatz (etwa 5000 Einträge) erzielte ein BERT-Netzwerk die beste Genauigkeit (70%), gefolgt von einem LSTM-Netzwerk (68%), einem MNB-Klassifikator (67%), einem Bag-of-Words-Netzwerk (62%), und einem BM25-Algorithmus aus dem Information Retrieval. Auf einem kleineren Datensatz (etwa 500 Einträge) gewann auch BERT (56%), gefolgt vom MNB (53%), dem LSTM (51%), dem BM25-Ansatz (47%), und dem Bag-of-Words-Netzwerk (42%). Die größten Hürden hinsichtlich der praktischen Umsetzbarkeit waren der manuelle Label-Aufwand, sowie die Herausforderungein Thema mit einer ausreichenden Anzahl an Meinungsäußerungen zu finden. Daraus schließen wir, dass der umgesetzte Ansatz am besten geeignet ist, wenn geplant ist, ihn über einen längeren Zeitraum und für eine beschränkte Anzahl an Themen einzusetzen.Die Nützlichkeit der vorhergesagten Meinungskonsistenz ist von der Genauigkeit des zugrundeliegenden maschinellen Modells abhängig. Durch den Vergleich der tatsächlichen Graphen mit den vorhergesagten, befanden wir eine Modellgenauigkeit von 70% alsausreichend, um die allgemeinen Meinung zu einem Thema repräsentativ darzustellen. Andererseits erfordert eine nützliche Darstellung der Meinungskonsistenz eine höhere Modellgenauigkeit.
de
This experimental study implements a solution for extracting opinions from written text with the help of supervised machine learning methods to visualize their consistencyover time. We examine the practical feasibility and the usefulness of the implemented approach.We gathered speech transcripts of the Austrian Parliament to create two datasets on topics concerning measures against the spread of the Coronavirus. We split the raw text around sentence boundaries into dataset records and used a keyword search to select relevant sentences. Then, we manually assigned opinion labels and used two statistical machine learning algorithms and three deep learning models to predict the labels. We used Monte Carlo cross-validation to evaluate classification performance. Subsequently,we used the predictions of the best-performing algorithm to plot the general sentiment stoward the topic and the consistencies of expressed opinions over time.On the larger dataset (around 5000 records), a BERT network achieved the best accuracy (70%), followed by an LSTM network (68%), an MNB classifier (67%), a Bag-of-Wordsnetwork (62%), and a BM25 document ranking classifier (42%). On the smaller dataset (around 500 records), BERT also performed best (56%), followed by the MNB (53%), theLSTM (51%), the BM25 approach (47%), and the Bag-of-Words network (42%). The biggest challenge to practical feasibility was the manual annotation effort and choosing a topic for which enough training samples are available. Thus, the approach is best suited if the intention is to monitor a small selection of topics over a long period. We showed that the usefulness of the predicted opinion consistency values depends on the accuracy of the underlying opinion predictions. By comparing the graphs from actual opinion data to graphs of predicted data, we gathered that a model with 70% accuracy is sufficient to produce a representative impression of the overall sentiment towards a topic. On the other hand, visualizing the consistency of opinions requires a higher classification accuracy to be useful.