Title: Context-aware sentiment analysis : a lexicon-based machine learning approach
Language: English
Authors: Gindl, Stefan 
Qualification level: Doctoral
Keywords: Sentimentanalyse; Maschinelles Lernen; Produktreview
Sentiment Analysis; Machine Learning; Product Reviews
Advisor: Merkl, Wolfdieter 
Issue Date: 2015
Number of Pages: 108
Qualification level: Doctoral
Abstract: 
Sentimentanalyse ist jenes Forschungsfeld, dass sich mit der Konzeption, Implementierung und Evaluierung von Systemen beschäftigt, die menschliche Stimmungen verstehen sollen. Durch die breite Verfügbarkeit von stimmungsgeladenen Aussagen im World-Wide-Web und leistungsstarken Algorithmen zu deren Analyse, hat sich das Forschungsfeld von seinem Nischendasein zu einem zentralen Bestandteil vieler Forschungsprojekte entwickelt. Sein hoher wirtschaftlicher Wert ergibt sich aus seiner zentralen Rolle in Media-Intelligence-Systemen. Diese unterstützen Marketing-Kampagnen und sammeln KundInnenfeedback aus dem großen Pool von online verfügbaren, geschriebenen Meinungen. Entscheidungsträger können dadurch aktuelle Markttrends leichter nachvollziehen und Marketingstrategien dementsprechend anpassen. Sentimentanalyse erweist sich auch im politischen Bereich als nützliches Werkzeug. Politische Kampagnen lassen sich damit evaluieren und sie unterstützt dabei, die Stimmung bei Ereignissen von öffentlichem Interesse zu messen, etwa dem Klimawandel oder einem Krieg. Meinungsforschung wird dadurch in einem so großen Stil möglich, wie sie vor Zeiten des World-Wide-Web undenkbar gewesen wäre. Die Verfügbarkeit leistungsstarker Rechner gestattet es, komplexe Algorithmen, etwa aus dem maschinellen Lernen oder der natürlichen Sprachverarbeitung, in angemessener Zeit auszuführen. Die vorliegende Arbeit beschäftigt sich damit, eine zentrale Ressource der Sentimentanalyse zu verbessern: das Sentimentlexikon. Dieses Lexikon enthält stimmungstragende Terme zusammen mit einer Einschätzung ihrer Polarität. Diese Stimmungsladung wird händisch ermittelt und ist statisch, selbst in Fällen, wo sich die Ladung eines Wortes durch den Kontext, in dem es verwendet wird, verändern kann. Das Wort "kühl" löst beispielsweise in "ein kühler Kopf" oder "ein kühler Blick" entgegengesetzte Empfindungen aus. Diese Ladungsveränderungen limitieren die Leistungsfähigkeit von Systemen, die von statischen Ladungen ausgehen. In der vorliegenden Arbeit werden Sentimentlexikons mit Kontexttermen erweitert, d.h. mit Termen, die häufig gemeinsam mit bestimmten Sentimenttermen vorkommen. Die Wahrscheinlichkeit des gemeinsamen Auftretens wird im Lexikon mitgespeichert, wodurch aus dem klassischen Sentimentlexikon ein kontextualisiertes Lexikon entsteht. Mit so einem Werkzeug ausgestattet ist ein Sentimentanalysesystem in der Lage, sich flexibel an unterschiedliche Kontexte anzupassen. Eine formelle Evaluierung zeigte die Wirksamkeit des vorgestellten Ansatzes. Sie folgte dabei einer in der Sentimentanalyse üblichen Vorgehensweise, bei der Produkt- und Servicekritiken aus unterschiedlichen Domänen als Evaluierungskorpus herangezogen werden. Durch die Berechnung von Recall, Precision und F-Measure in einer zehnfachen Kreuzvalidierung konnte gezeigt werden, dass der vorgestellte Ansatz einen Schlagwortansatz mit statischen Ladungen übertrifft.

Sentiment analysis, the research area focusing on the creation, implementation, and evaluation of systems for the analysis of human attitudes, has become increasingly interesting for researchers of diverse special fields such as artificial intelligence, computational linguistics, or psychology. With the wide availability of opinionated statements on the Web and the creation of ever more powerful algorithms, the research area has gotten off the sidelines and moved into the focal point of many scientific projects. It has a significant business value, as it is a central component of media intelligence systems, supporting decisions for marketing campaigns and collecting customer feedback from the large pool of opinions on the Web. It helps decision makers to understand trends on the market, which eventually helps to adapt current marketing strategies. Sentiment analysis also proves beneficial in the political area, by evaluating a political campaign or to measure public awareness towards events of public interest, e.g. climate change or wars. An elicitation of opinions on such a large scale was inconceivable in the era before the World Wide Web and becomes feasible merely because of the existence of powerful technologies, such as machine learning and natural language processing. This work aims at improving a central resource crucial in sentiment analysis, the sentiment lexicon. These collections of opinionated terms store a-priori charges for each term, indicating whether a term conveys positive or negative sentiment. The charges are bound to manual assessment, even in cases where a term is ambiguous and might change its charge depending on the context. For instance, the term "cool" triggers opposite emotions in the sentence "the cool car" and "she mustered him with a cool glance". These polarity changes limit approaches which depend on static a-priori charges. The present work expands the sentiment lexicon with context terms, i.e. terms frequently co-occurring with the sentiment term. Analysing their frequency of co-occurrence in positive and negative contexts and storing the probability of co-occurrence results in the creation of contextualized lexicons. The probabilities for positive and negative con- text supersede the fixed a-priori values. A system armed with such a tool is capable of flexibly adapting the sentiment value of one and the same term based on the context it is used in. A formal evaluation shows the efficacy of the approach. The evaluation follows a method well-established in sentiment analysis: a corpus consisting of product and service reviews from different domains is the basis for the evaluation. Calculating recall, precision, and f-measure in a ten-fold cross-validation shows that the proposed approach outperforms a traditional keyword lookup algorithm with fixed polarities.
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-86015
http://hdl.handle.net/20.500.12708/3745
Library ID: AC12260782
Organisation: E188 - Institut für Softwaretechnik und Interaktive Systeme 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

Show full item record

Page view(s)

21
checked on Feb 21, 2021

Download(s)

74
checked on Feb 21, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.