Using natural language processing to measure the consistency of opinions expressed by politicians

Zaruba, Stefan

doi:10.34726/hss.2021.80341

DC Element

Wert

Sprache

dc.contributor.advisor

Eidenberger, Horst

dc.contributor.author

Zaruba, Stefan

dc.date.accessioned

2021-10-15T10:44:19Z

dc.date.issued

2021

dc.date.submitted

2021-10

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Zaruba, S. (2021). <i>Using natural language processing to measure the consistency of opinions expressed by politicians</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.80341</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2021.80341

dc.identifier.uri

http://hdl.handle.net/20.500.12708/18653

dc.description.abstract

In dieser experimentellen Studie wird eine Lösung implementiert, um Meinungen, mit hilfe von Techniken aus dem maschinellen überwachten Lernens, aus geschriebenem Text zu extrahieren, um in weiterer Folge deren Konsistenz über die Zeit zu visualisieren. Wir prüfen sowohl die praktische Umsetzbarkeit als auch die Nützlichkeit des implementierten Ansatzes.Wir haben die vom österreichischen Parlament zur Verfügung gestellten Redeprotokolle gesammelt, um zwei Datensätze zu Themen bezüglich Maßnahmen gegen die Verbreitung des Coronavirus zu erzeugen. Um die Einträge für die Datensätze zu gewinnen, haben wir den Rohtext anhand der Satzgrenzen aufgeteilt und relevante Sätze mithilfe einer Schlüsselwortsuche identifiziert. Danach haben wir den Einträgen Meinungslabels per Hand zugewiesen. Anschließend haben wir zwei statistischen Ansätze und drei tiefe Lernnetzwerke verwendet, um die zuvor zugewiesenen Labels mithilfe von maschinellem Lernen zu bestimmen. Wir haben den Vorgang mehrmals wiederholt, um mithilfe einer Monte Carlo Kreuzvalidierung die erzielten Leistungen zu bewerten. Dann haben wirdie vorhergesagten Labels des leistungsstärksten Modells verwendet, um die allgemeine Meinung, sowie die Konsistenz von Meinungen über die Zeit, grafisch darzustellen.Am größeren Datensatz (etwa 5000 Einträge) erzielte ein BERT-Netzwerk die beste Genauigkeit (70%), gefolgt von einem LSTM-Netzwerk (68%), einem MNB-Klassifikator (67%), einem Bag-of-Words-Netzwerk (62%), und einem BM25-Algorithmus aus dem Information Retrieval. Auf einem kleineren Datensatz (etwa 500 Einträge) gewann auch BERT (56%), gefolgt vom MNB (53%), dem LSTM (51%), dem BM25-Ansatz (47%), und dem Bag-of-Words-Netzwerk (42%). Die größten Hürden hinsichtlich der praktischen Umsetzbarkeit waren der manuelle Label-Aufwand, sowie die Herausforderungein Thema mit einer ausreichenden Anzahl an Meinungsäußerungen zu finden. Daraus schließen wir, dass der umgesetzte Ansatz am besten geeignet ist, wenn geplant ist, ihn über einen längeren Zeitraum und für eine beschränkte Anzahl an Themen einzusetzen.Die Nützlichkeit der vorhergesagten Meinungskonsistenz ist von der Genauigkeit des zugrundeliegenden maschinellen Modells abhängig. Durch den Vergleich der tatsächlichen Graphen mit den vorhergesagten, befanden wir eine Modellgenauigkeit von 70% alsausreichend, um die allgemeinen Meinung zu einem Thema repräsentativ darzustellen. Andererseits erfordert eine nützliche Darstellung der Meinungskonsistenz eine höhere Modellgenauigkeit.

dc.description.abstract

This experimental study implements a solution for extracting opinions from written text with the help of supervised machine learning methods to visualize their consistencyover time. We examine the practical feasibility and the usefulness of the implemented approach.We gathered speech transcripts of the Austrian Parliament to create two datasets on topics concerning measures against the spread of the Coronavirus. We split the raw text around sentence boundaries into dataset records and used a keyword search to select relevant sentences. Then, we manually assigned opinion labels and used two statistical machine learning algorithms and three deep learning models to predict the labels. We used Monte Carlo cross-validation to evaluate classification performance. Subsequently,we used the predictions of the best-performing algorithm to plot the general sentiment stoward the topic and the consistencies of expressed opinions over time.On the larger dataset (around 5000 records), a BERT network achieved the best accuracy (70%), followed by an LSTM network (68%), an MNB classifier (67%), a Bag-of-Wordsnetwork (62%), and a BM25 document ranking classifier (42%). On the smaller dataset (around 500 records), BERT also performed best (56%), followed by the MNB (53%), theLSTM (51%), the BM25 approach (47%), and the Bag-of-Words network (42%). The biggest challenge to practical feasibility was the manual annotation effort and choosing a topic for which enough training samples are available. Thus, the approach is best suited if the intention is to monitor a small selection of topics over a long period. We showed that the usefulness of the predicted opinion consistency values depends on the accuracy of the underlying opinion predictions. By comparing the graphs from actual opinion data to graphs of predicted data, we gathered that a model with 70% accuracy is sufficient to produce a representative impression of the overall sentiment towards a topic. On the other hand, visualizing the consistency of opinions requires a higher classification accuracy to be useful.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Sentiment Analysis

dc.subject

Natural Language Processing

dc.subject

Opinion Mining

dc.subject

Sentiment Analysis

dc.subject

Natural Language Processing

dc.subject

Opinion Mining

dc.title

Using natural language processing to measure the consistency of opinions expressed by politicians

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2021.80341

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Stefan Zaruba

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC16341248

dc.description.numberOfPages

108

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

TU Wien

Enthalten in den Sammlungen:

Thesis

Volltext (Version of Record (published version))

Adobe PDF

(2.57 MB)

Urheberrechtsschutz

Zur Kurzanzeige

Seiten Aufrufe

368

aufgerufen am 23.11.2023

Download(s)

189

aufgerufen am 23.11.2023

Google Scholar^TM

Check

Seiten Aufrufe

Download(s)

Google ScholarTM

Google Scholar^TM