Stojanović, I. (2025). Train occupancy analysis : Forecasting passenger numbers with spatio-temporal information [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.120152
E180 - Fakultät für Informatik E105 - Institut für Stochastik und Wirtschaftsmathematik
-
Date (published):
2025
-
Number of Pages:
94
-
Keywords:
Daily Passenger Numbers; Time Series Analysis; Forecasting Model; Modelling Spatio-Temporal Features; Dimensionality Reduction; Penalised Estimation; Weighted Accuracy Score; Long-Term Prediction
en
Abstract:
Accurate forecasting of train occupancy is imperative for the optimisation of rail operations, which, in turn, fosters the development of sustainable transport systems. This thesis tackles the challenge of predicting passenger numbers by evaluating a selection of time series models that are capable of handling small sample sizes and modelling passenger numbers from multiple trains at their respective legs in different ways. The modelling of multiple time series introduces a high-dimensionality problem, which is counteracted by the use of regularised estimation techniques. The ultimate selection of the forecasting model is made subsequent to out-of-sample evaluation. To this end, advanced error metrics, including RMSE, MAPE, MASE, and RMSSE, are employed for comprehensive model evaluation. The latter two metrics compare the performance of the model against a benchmark model, the random walk model. Furthermore, the problem is reinterpreted as a multi-class classification task, using accuracy and weighted accuracy metrics to evaluate its performance as such. The contributions of this thesis are threefold: firstly, the development of a forecasting tool that has been validated using real-world train occupancy data; secondly, the incorporation of explanatory variables such as calendar events and ticket sales; and thirdly, a comprehensive evaluation of model performance with a focus on short-term and long-term performance. Hereby, the ticket information were given closer attention, because they are time-dependent regressors with supposedly strong predictive ability. The results demonstrate the tool's efficacy. The optimal approaches have attained an RMSSE of nearly 0.7 and an accuracy of up to 80%. The low error metric of the exact forecast indicates a model that will be particularly suitable for price management, whereas the high accuracy of the classification task indicates its good support when it comes to train scheduling. Consequently, these findings ultimately contribute to an enhanced passenger experience when travelling by train.
en
Eine genaue Prognose der Zugauslastung ist für die Optimierung des Bahnbetriebs unerlässlich, was wiederum die Entwicklung nachhaltiger Verkehrssysteme fördert. Diese Arbeit befasst sich mit der Herausforderung, Fahrgastzahlen vorherzusagen, indem eine Auswahl von Zeitreihenmodellen evaluiert wird, die in der Lage ist, kleine Stichproben zu verarbeiten und Fahrgastzahlen aus mehreren Zügen auf ihren jeweiligen Halteabschnitten auf unterschiedliche Weise zu modellieren. Die Modellierung mehrerer Zeitreihen führt zu einem Problem der hohen Dimensionalität, dem durch den Einsatz von regularisierten Schätzverfahren entgegengewirkt wird. Die endgültige Auswahl des Prognosemodells erfolgt nach einer Out-of-Sample-Bewertung. Zu diesem Zweck werden fortgeschrittene Fehlermetriken, einschließlich RMSE, MAPE, MASE und RMSSE, für eine umfassende Modellbewertung eingesetzt. Die beiden letzteren Metriken vergleichen die Leistung des Modells mit einem Benchmark-Modell, dem Random-Walk-Modell. Darüber hinaus wird das Problem als eine Mehrklassen-Klassifizierungsaufgabe neu interpretiert, wobei Genauigkeits- und gewichtete Genauigkeitsmetriken verwendet werden, um die Leistung als solche zu bewerten. Diese Arbeit leistet einen dreifachen Beitrag: Erstens die Entwicklung eines Prognosetools, das anhand realer Zugbelegungsdaten validiert wurde; zweitens die Einbeziehung erklärender Variablen wie Kalenderinformationen und Ticketverkäufe; und drittens eine umfassende Bewertung der Modellleistung mit Schwerpunkt auf der kurz- und langfristigen Leistung. Dabei wurde den Ticketinformationen besondere Aufmerksamkeit geschenkt, da es sich bei ihnen um zeitabhängige Regressoren mit vermutlich starker Vorhersagekraft handelt. Die Ergebnisse belegen die Wirksamkeit des Tools. Die optimalen Ansätze haben einen RMSSE von fast 0.7 und eine Genauigkeit von bis zu 80% erreicht. Die niedrige Fehlermetrik der genauen Prognose deutet auf ein Modell hin, das sich besonders für das Preismanagement eignet, während die hohe Genauigkeit der Klassifizierungsaufgabe auf eine gute Unterstützung bei der Zugplanung schließen lässt. Folglich tragen diese Erkenntnisse im Endeffekt zu einem verbesserten Reiseerlebnis für Zugreisende bei.