Sentiment analysis of public information to predict stock market movements

Brom, Jii

doi:10.34726/hss.2018.38360

Record link:

https://doi.org/10.34726/hss.2018.38360
http://hdl.handle.net/20.500.12708/6090

Title:

Sentiment analysis of public information to predict stock market movements

Citation:

Brom, J. (2018). Sentiment analysis of public information to predict stock market movements [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.38360

reposiTUm DOI:

10.34726/hss.2018.38360

CatalogPlus:

AC15008894

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Brom, Jii

Advisor:

Merkl, Dieter

Organisational Unit:

E188 - Institut für Softwaretechnik und Interaktive Systeme

Date (published):

2018

Number of Pages:

Keywords:

Sentiment analysis; Social media; Machine learning; Text processing; Stock market prediction; Twitter; Stocktwits; News articles; Data crawling

Abstract:

Der Schwerpunkt dieser Arbeit liegt auf der Vorhersage zukünftiger Bewegungen von Aktienkursen unter der Verwendung von Sentimentanalysen aus öffentlich zugänglichen Daten. Das Ziel ist es, verschiedene Datenquellen und Verarbeitungstechniken zu vergleichen, deren Vorteile und Nachteile zu identifizieren und daraus die beste Kombination zu finden, welche die höchste Vorhersagegenauigkeit bietet. Aus verschiedenen populären sozialen Netzwerken und Zeitschriften, welche als Repräsentant der öffentlichen Meinung herangezogen werden können, wurden die folgenden drei für die Analyse ausgewählt: Twitter, Stocktwits und die Suche nach Nachrichtenartikeln von Bing. Twitter stellt die allgemeinste Quelle der öffentlichen Meinung dar – von hier werden Daten, welche von einer Vielzahl von Usern ohne spezifische Beziehung zum Aktienmarkt bezogen. Stocktwits, ein anlageorientiertes soziales Netzwerk, liefert Beiträge von Internetnutzern, welche sich für Wirtschaft und Aktienhandel interessieren. Nachrichtenartikel dienen als Informationsquelle, welche die Meinungen der beiden genannten Benutzergruppen beeinflusst. Die Auswahl der genannten Quellen basierte auf mehreren technischen Faktoren, einschließlich der freien Verfügbarkeit der zugrundeliegenden API sowie der Menge der daraus täglich abrufbaren Daten. Als Quelle für die Prognose der Aktienkursbewegungen wurden die folgenden neun Aktiengesellschaften und Indizes ausgewählt: Coca-Cola, McDonald’s, Microsoft, Netflix, Nike, Tesla, Dow Jones Industrial Average, NASDAQ, Standard & Poor’s 500. Diese Auswahl wurde durch die Markenbekanntheit beeinflusst. Verarbeitungstechniken, die auf die zugrundeliegenden Daten angewendet wurden, umfassen typische Textmanipulationsmethoden, wie z. B. Stemming, Stopwortentfernung, POS-Tagging oder Bigramm-Kollokationen. Der Sentimentanalyseprozess basiert auf einem allgemeinen Repräsentationsmodell, dem sogenannten „Bag of Words“ (Vektorraummodell). Für die Klassifizierungsaufgaben wurde eine Kombination gängiger Maschinenlernalgorithmen verwendet: Naive Bayes, Logistische Regression und Support Vector Machines. Die Ergebnisse wurden mittels Granger-Kausalität und binärer Klassifikation analysiert. Der Granger-Kausalitäts-Test untersucht die Korrelation zwischen täglichen Stimmungs- und Kursschwankungen der Daten-Serien. Der binäre Klassifikations-Test versucht, die zukünftige Auf- oder Abwärtspreisbewegung basierend auf der Sentimentanalyse der letzten drei Tage vorherzusagen. Als Hauptergebnis der Analyse wurde festgestellt, dass das soziale Netzwerk Stocktwits das größte Vorhersagepotenzial aufweist und dass eine starke Korrelation zwischen dem KGV eines Unternehmens und der Vorhersagbarkeit dessen Aktienkurses besteht.

The focus of this research is the phenomenon of predicting future movements of stock market prices using sentiment changes obtained from publicly available sources. The aim is to compare a subset of different input data sources and processing techniques in order to identify their benefits and shortcomings, and find their best combination that would provide the highest prediction accuracy. Out of many popular networks and journals which could be used as a source of public sentiment the following three subjects for the analysis were chosen: Twitter, Stocktwits and Bing search news articles. Twitter social network represents the most general source of public sentiment - data obtained from a big amount of Internet users with no specific relation to investment. Stocktwits, an investment oriented social network, provides input from Internet users interested in economy and stock market. News articles serve as a source of information which influences the opinions of both groups of users. The selection of the mentioned sources was based on multiple technical factors including free accessibility of API or the amount of daily available data. As the source of stock price movements which we try to predict the following nine stock market companies

License:

In Copyright

Appears in Collections:

Thesis