A deep learning approach for analyzing the Limit Order Book

Hirnschall, David

doi:10.34726/hss.2020.81841

Record link:

https://doi.org/10.34726/hss.2020.81841
http://hdl.handle.net/20.500.12708/15713

Title:

A deep learning approach for analyzing the Limit Order Book

Citation:

Hirnschall, D. (2020). A deep learning approach for analyzing the Limit Order Book [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.81841

reposiTUm DOI:

10.34726/hss.2020.81841

CatalogPlus:

AC15759227

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Hirnschall, David

Advisor:

Rheinländer, Thorsten

Organisational Unit:

E105 - Institut für Stochastik und Wirtschaftsmathematik

Date (published):

2020

Number of Pages:

Keywords:

Limit Order Book; Deep Learning

Abstract:

In den letzten Jahrzehnten haben sich die Finanzmärkte aufgrund der enormen, heutzutage verfügbaren, Datenmenge grundlegend verändert. In dieser Arbeit stellen wir einen rein datengetriebenen Ansatz ohne zugrunde liegende Annahmen, wie etwa Preisdynamiken, für die Analyse der Märkte vor. Wir verwenden modernste Techniken des maschinellen Lernens, um den Informationsgehalt von Limit Order Büchern (LOB) zu untersuchen, indem wir die Vorhersage von Preisbewegungen sowie Volatilitäten, zwei der wichtigsten Fragestellungen für Investoren, behandeln.Wir beginnen mit einer detaillierten Einführung in die Theorie neuronaler Netze, wo wir nicht nur grundlegende Architekturen, insbesondere deep feedforward neuronale Netze, und deren Trainingsalgorithmus vorstellen, sondern uns auch auf Optimierungs- und Generalisierungstechniken konzentrieren. Darüber hinaus präsentieren wir eine mathematisch exakte Beschreibung eines Limit Order Buches sowie seiner tatsächlichen Datenstruktur, gefolgt von einem unverzerrten Schätzer der realisierten Volatilität unter Verwendung von verrauschten Hochfrequenzdaten. Dieser wird TSRV (Two Scales Realized Volatility Estimator) genannt.Schließlich zeigen wir empirische Ergebnisse für vier verschiedene Aktien. Die verwendeten Daten des Limit Order Buches von der NASDAQ, der zweitgrößten Börse weltweit, wurden vom Online-Tool LOBSTER bereitgestellt. Für jede Fragestellung extrahieren wir zunächst eine breite Palette technischer und quantitativer Merkmale aus den Da- ten des Limit Order Buches. Anschließend verwenden wir Methoden, wie etwa recursive feature selection und den Boruta-Algorithmus, zur Auswahl der wichtigsten Merkmale um die Trainingsgeschwindigkeit zu erhöhen und die Leistung zu verbessern. Durch die Verwendung von deep feedforward neuronalen Netzen, die auf den wichtigsten Merkmalen trainiert worden sind, können wir häufig verwendete lineare Algorithmen, wie die logistische Regression, für die Vorhersage des mittleren Preises für alle vier Aktien übertreffen. Darüber hinaus liefert unser vorgeschlagener Ansatz weitaus bessere, langfristige Volatilitätsprognosen als ARIMA Modelle. Folglich wird die Notwendigkeit einer Neukalibrierung verringert, wodurch schnellere Vorhersagen und damit potenziell vorteilhafte Indikatoren für Anleger ermöglicht werden.

In the last few decades the financial markets have changed fundamentally because of the tremendous amount of data which is available nowadays. In this thesis we propose a pu- rely data-driven approach without any underlying assumptions, such as price dynamics, for analyzing the markets. We therefore use state of the art machine learning techniques to investigate the information content of limit order books (LOB), by targeting two of the most important tasks for investors, namely predicting price movements and forecasting volatility.We start by giving a detailed introduction into the theory of neural networks, where we not only present basic architectures, particular deep feedforward neural networks, and how to train them, but also focus on optimization and generalization techniques. Furthermore, we present a mathematically precise description of a limit order book as well as its actual data structure, followed by an unbiased approach to estimate realized volatility using noisy high-frequency data, referred to as two scales realized volatility estimator (TSRV).Finally, we show empirical results for four different stocks. The used limit order book data from NASDAQ, the second largest stock exchange in the world, was provided by the online tool LOBSTER. For each task we first extract a wide range of technical and quantitative features from basic limit order book data. Afterwards, we use feature selection methods, such as recursive feature selection and the Boruta algorithm to increase training speed and improve performance. By using deep feedforward neural networks, trained on the most important features, we are able to outperform commonly used linear algorithms for mid-price prediction such as multiclass logistic regression for all four stocks. Additionally, our proposed approach yields better long term volatility forecasts than ARIMA models. Consequently, it reduces the necessity of recalibration, which yields faster predictions and therefore potentially beneficial indicators for investors.

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis