Mumic, N. (2016). Outlier detection in predictive time series models [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.34300
E105 - Institut für Stochastik und Wirtschaftsmathematik
-
Date (published):
2016
-
Number of Pages:
58
-
Keywords:
high-dimensional time series; sparse partial least-squares regression
en
Abstract:
In dieser Master Arbeit stellen wir ein zweistufiges Verfahren zur Ausreißererkennung in Absatzzeitreihen vor. Im ersten Schritt extrahieren wir das Signal der Zeitreihe mit Hilfe von ARIMA Modellen und Kalman Filter. Die verbleibende Struktur in den Residuen analysieren wir im zweiten Schritt mit Hilfe von Finanzindikatoren. Dazu schätzen wir latente Variablen, welche die komprimierte Information aus den Finanzindikatoren enthalten. Die dafür verwendeten Verfahren sind Hauptkomponentenregression, Partial Least Squares Regression und Sparse Partial Least Squares Regression, wobei bei für die letzten beiden auch robuste Varianten, basierend auf Robuster M-Regression, verwendet werden. Die optimale Anzahl an Komponenten wird mittels Cross Validation (CV) beziehungsweise wiederholter CV ermittelt. In einem Regressionsmodell werden die skalierten Residuen aus Schritt eins auf die latenten Variablen regressiert. Zur Erkennung von Ausreißern werden die skalierten Residuen der Regression mit ihren entsprechenden Toleranzbändern dargestellt. Beobachtungen, die außerhalb dieser Toleranzbänder liegen, werden als Ausreißer klassifiziert.
de
In this master thesis we want to identify outliers in time series concerning sales data by a two-step procedure. In the first step we extract the signal of the underlying series with the methods ARIMA modeling and Kalman filtering. In the second step we want to explain the remaining structure within the residuals of step one. For this purpose we compress the underlying information of financial indicators into a few latent components. For identification of the latent variables we apply Principal Component Regression, Partial Least Squares Regression and Sparse Partial Least Squares Regression. Concerning the last two methods we will also present robust approaches using Robust M-Regression. The optimal number of components is determined by Cross Validation (CV) and repeated CV. Within a regression model the scaled residuals of step two are regressed on the latent variables of step two. For outlier detection the scaled regression residuals are monitored by means of tolerance bands, calculated with prediction errors from the Cross Validation. Observations beyond these bands are identified as outliers.