Title: Analyse der Netzwerkstrukturen sowie Erweiterung eines Wörterbuchs zur automatisierten Identifikation von Hass-Tweets
Other Titles: Analysis of network structures and enlargement of a dictionary for the automated identification of hate tweets
Language: Deutsch
Authors: Walla, Klaus 
Qualification level: Diploma
Keywords: Hassrede; Twitter; überwachtes maschinelles Lernen; Verarbeitung natürlicher Sprache; soziale Netzwerkanalyse; LIWC Wörterbuch
Hate Speech; Twitter; supervised machine learning; NLP; social network analysis; LIWC dictionary
Advisor: Rauber, Andreas 
Issue Date: 2016
Number of Pages: 160
Qualification level: Diploma
Abstract: 
In den letzten Jahren rückte Hassrede speziell durch deren einfache und anonyme Verbreitung über soziale Netzwerke immer mehr in das Blickfeld der Gesellschaft und stellt mittlerweile ein nicht zu verachtendes Problem dar. Speziell in einem sozialen Medium, wie Twitter, können die großen Mengen an Tweets nur unzureichend auf herabwürdigende Inhalte untersucht werden, um entsprechend darauf zu reagieren. Deshalb soll in dieser Arbeit ein Ansatz beruhend auf Supervised Machine Learning vorgestellt werden, der Hasspostings automatisch als solche identifiziert. Damit dies bewerkstelligt werden kann, wurden Features eingesetzt, die sich bereits in vorangegangen Arbeiten für die Erkennung von offensiven Äußerungen bewährten und Eigenheiten der verwendeten Sprache und des Tweet-Inhalts berücksichtigen. Zusätzlich wurde spezielles Augenmerk auf Features gelegt, die durch die Analyse der Netzwerkstruktur und durch den Einsatz eines für die Hassidentifikation angepasstes Wörterbuch gewonnen werden können. Letztendlich wird mit den resultierenden Features ein Modell eines Klassifikators trainiert, welcher den Tweet als neutral oder hasserfüllt einstuft. Zum Einsatz kamen dabei ein Support Vector Machine-, ein Naive Bayes- und ein Random Decision Forest- Klassifikator. Zur Evaluierung der Performance des Machine Learning Algorithmus wurden verschiedene Experimente durchgeführt, die Aufschluss darüber geben sollen wie sich Features und dessen Kombinationen auf die Exaktheit der Klassifikationen auswirkt, wie gut die Ergebnisse der jeweiligen Klassifikatoren ausfallen und wie die Parameter dieser angepasst werden müssen, um die Resultate weiter zu optimieren. Auf Grundlage der kalkulierten Messwerte soll als Endergebnis dieser Arbeit jene Kombination aus Feature-Set und Klassifikator mit dessen Parametereinstellungen präsentiert werden, von der man sich die beste Identifikation von Hasspostings verspricht.

In recent years, hate speech moved specially due to their simple and anonymous distribution through social networks more and more into the focus of the society and is now constituting a non-negligible problem. Especially in a social medium like Twitter, the large amounts of posts can only be inadequately investigated for derogatory content or offensive language in order to react accordingly. Therefore an approach, based on supervised machine learning, is presented in this work, which identifies hate postings automatically. For this to be accomplished, features already proven in previous works for the recognition of offensive remarks, which consider characteristics of the used language and the Tweet content, were included. In addition, special attention was paid to features that can be gained by analyzing the network structure and the use of a dictionary customized for the hate identification. Finally, the model of a classifier is trained with the resulting features, which classifies a Tweet as neutral or hateful. In detail a Support Vector Machine-, Naive Bayes and Random Forest- classifier came to use. To evaluate the performance of the machine learning algorithmus different experiments were carried out, which should give information about how features and its combinations affect the accuracy of the classifications, as well the respective classifiers perform and how the parameters of these have to be adjusted to optimize the results further. Based on the calculated values the combination of feature set and classifier with its optimal parameter settings, from which one expects the best identification of hate postings, is presented as the final result of this work.
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-110183
http://hdl.handle.net/20.500.12708/1813
Library ID: AC15057852
Organisation: E188 - Institut für Softwaretechnik und Interaktive Systeme 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

Show full item record

Page view(s)

24
checked on Apr 4, 2021

Download(s)

217
checked on Apr 4, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.