Öllerer, V. (2012). Imputation and prediction of multivariate travel time data [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/161031
travel times; imputation; missing values; principal component analysis; NIPALS; Nearest Neighbour; multiple regression; model adequacy checking; variable transformation
en
Abstract:
Diese Arbeit wurde in Zusammenarbeit mit dem AIT im Zuge des HealthLog-Projekts verfasst. Das Ziel war die Erstellung eines Dispositionssystems für Samariterbund Wien, das dem Leitstellendisponenten das am besten geeignetste zur Verfügung stehende Rettungsmittel vorschlägt im Hinblick auf kurze Bearbeitungszeit sowie Patientenkomfort. Die gesuchten Gesamtreisezeiten wurden durch beobachtete Linkreisezeiten modelliert, wobei der Ersetzung fehlender Werte in den Linkreisezeiten besondere Aufmerksamkeit geschenkt wurde.<br />Der Referenzdatensatz wurde aus Taxireisezeiten auf dem Wiener Gürtel auf der Strecke Westbahnhof bis AKH gesammelt. Nach deren Unterteilung in vier Kategorien ("Ferienwochentag", "Ferienwochenende", "Schulwochentag", "Schulwochenende") wurden verschieden Imputationsmethoden angewendet (Hauptkomponentenanalyse durch Singulärwertzerlegung, NIPALS, Nearest-Neighbour-Ansatz), wobei der Nearest-Neighbour-Ansatz die besten Ergebnisse liefert, speziell für steigende Fehlerraten. Präzise Schätzungen können bis zu 30% fehlender Werte erzeugt werden.<br />Zur Bewertung der Vorhersage separat erhobener Gesamtreisezeiten wurde multiple lineare Regression angewandt, wobei die stufenweise Variablenselektion auf AIC basiert. Das erzeugte Modell wurde dann mit anderen verglichen. Bei einer Gesamtreisezeit von 4-5 Minuten können fast 50% der Daten bis auf eine halbe Minute genau geschätzt werden.<br />Darüber hinaus wird ein weiteres Modell erstellt, das zusätzlich alle Daten bis zur Vorperiode der zu schätzenden Beobachtung enthält.<br />Klarerweise liefert dieses Modell noch bessere Ergebnisse. Bei der Verwendung eines Modells, das nur die Linkreisezeiten der wichtigsten Linkabschnitte beinhaltet, verschlechtern sich die Ergebnisse.<br />
de
In cooperation with AIT this thesis was written as part of the HealthLog-project. The aim of the project was to build a reliable dispatching system for Samariterbund Wien that provides an assignment to the dispatcher focusing on short response time and patients' convenience. The demanded route travel times are modeled from observed link travel times. A central part was devoted to replacement of missing values in the link travel times.<br />The reference data set of taxi travel times was collected on Vienna's ring road Gürtel (Westbahnhof to AKH). After grouping the data into four categories ('holidays weekday', 'holidays weekend', 'school day weekday', 'school day weekend') different imputation methods are applied (PCA with SVD, PCA with NIPALS and nearest neighbour), where the nearest neighbour approach performs best, especially for varying missing value rates. Accurate estimates are produced for up to 30% of missing values.<br />To evaluate prediction of total travel times another data set is collected consisting of trips covering (nearly) the whole route.<br />Multiple linear regression is applied to these data and a stepwise regression method using AIC applied to select the most appropriate predictor variables.<br />The obtained model is afterwards compared to different models. At an average total travel time of about 4-5 minutes nearly 50% of the data can be preciously estimated to within half a minute.<br />Furthermore, also observations up to the previous period are included in the model, naturally, improving the quality of the model. Using average link speeds to form an 'important link model' impares the results.