Title: Outlier detection in predictive time series models
Language: English
Authors: Mumic, Nermina 
Qualification level: Diploma
Advisor: Filzmoser, Peter 
Issue Date: 2016
Number of Pages: 58
Qualification level: Diploma
Abstract: 
In dieser Master Arbeit stellen wir ein zweistufiges Verfahren zur Ausreißererkennung in Absatzzeitreihen vor. Im ersten Schritt extrahieren wir das Signal der Zeitreihe mit Hilfe von ARIMA Modellen und Kalman Filter. Die verbleibende Struktur in den Residuen analysieren wir im zweiten Schritt mit Hilfe von Finanzindikatoren. Dazu schätzen wir latente Variablen, welche die komprimierte Information aus den Finanzindikatoren enthalten. Die dafür verwendeten Verfahren sind Hauptkomponentenregression, Partial Least Squares Regression und Sparse Partial Least Squares Regression, wobei bei für die letzten beiden auch robuste Varianten, basierend auf Robuster M-Regression, verwendet werden. Die optimale Anzahl an Komponenten wird mittels Cross Validation (CV) beziehungsweise wiederholter CV ermittelt. In einem Regressionsmodell werden die skalierten Residuen aus Schritt eins auf die latenten Variablen regressiert. Zur Erkennung von Ausreißern werden die skalierten Residuen der Regression mit ihren entsprechenden Toleranzbändern dargestellt. Beobachtungen, die außerhalb dieser Toleranzbänder liegen, werden als Ausreißer klassifiziert.

In this master thesis we want to identify outliers in time series concerning sales data by a two-step procedure. In the first step we extract the signal of the underlying series with the methods ARIMA modeling and Kalman filtering. In the second step we want to explain the remaining structure within the residuals of step one. For this purpose we compress the underlying information of financial indicators into a few latent components. For identification of the latent variables we apply Principal Component Regression, Partial Least Squares Regression and Sparse Partial Least Squares Regression. Concerning the last two methods we will also present robust approaches using Robust M-Regression. The optimal number of components is determined by Cross Validation (CV) and repeated CV. Within a regression model the scaled residuals of step two are regressed on the latent variables of step two. For outlier detection the scaled regression residuals are monitored by means of tolerance bands, calculated with prediction errors from the Cross Validation. Observations beyond these bands are identified as outliers.
Keywords: high-dimensional time series; sparse partial least-squares regression
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-87433
http://hdl.handle.net/20.500.12708/3569
Library ID: AC13001918
Organisation: E105 - Institut für Stochastik und Wirtschaftsmathematik 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:


Page view(s)

44
checked on Aug 26, 2021

Download(s)

154
checked on Aug 26, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.