Pattern Recognition for Data-Driven Maintenance in Metro Trains: A Comparative Analysis of Supervised and Unsupervised Approaches on Time-Series Data

Helm, Stefan

doi:10.34726/hss.2025.130344

DC Field

Value

Language

dc.contributor.advisor

Ansari Chaharsoughi, Fazel

dc.contributor.author

Helm, Stefan

dc.date.accessioned

2026-02-20T09:21:23Z

dc.date.issued

2025

dc.date.submitted

2025-12

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Helm, S. (2025). <i>Pattern Recognition for Data-Driven Maintenance in Metro Trains: A Comparative Analysis of Supervised and Unsupervised Approaches on Time-Series Data</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130344</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2025.130344

dc.identifier.uri

http://hdl.handle.net/20.500.12708/226544

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Bahnbetreiber stehen zunehmend vor der Herausforderung, kostspielige Störungen durch frühzeitige Fehlererkennung zu verhindern. Predictive Maintenance (PdM) bietet hierfür einen vielversprechenden Ansatz, jedoch stützen sich viele bestehende Studien auf stark kuratierte Benchmark-Datensätze, nutzen Asset-Kontextinformationen unzureichend und vernachlässigen häufig den Einfluss des zeitlichen Designs auf die Modellleistung. Dadurch bleibt ihre Anwendbarkeit auf reale Zugflotten begrenzt. Diese Arbeit adressiert diese Defizite durch die Untersuchung überwachter und unüberwachter Machine Learning (ML) Ansätze zur Anomalieerkennung in der V-Zugflotte eines europäischen U-Bahn Systems. Ein Random Forest (RF) wurde auf fensteraggregierten Sensorsignalen trainiert, die mit Asset Historien angereichert wurden, während ein Long Short Term Memory Autoencoder (LSTM-AE) auf Rohsignalsequenzen angewandt wurde. Ein zeitbewusstes Evaluationsprotokoll variierte systematisch Feature-/Sequenzfenster sowie vorausschauende Label Horizonte und ein neuer ereignisbezogener Datensatz wurde durch die Verknüpfung von Sensordaten mit dokumentierten Fehlern und Revisionen erstellt. Die Ergebnisse zeigen, dass der RF aufgrund seiner überlegenen Precision eine höhere Gesamtleistung in der PdM erreichte (F1 = 0.21), während das LSTM-AE einen sehr hohen Recall (0.92) erzielte und in mehreren Fällen frühere Warnsignale lieferte. Die Leistung erwies sich als stark abhängig vom zeitlichen Design. Der RF profitierte von fein granulierten Feature Fenstern und längeren Horizonten, während das LSTM-AE längere Sequenzen mit kürzeren Horizonten benötigte. Besonders bedeutsam war, dass Asset Historienvariablen zu den einflussreichsten Prädiktoren zählten, was den Wert kontextueller Features unterstreicht. Zusammenfassend zeigt diese Arbeit, dass PdM auf realen Metrodaten möglich ist, wenn zeitliche Konfiguration und Asset Kontext explizit berücksichtigt werden. Sie hebt die komplementären Stärken überwachter und unüberwachter ML Modelle hervor und stellt sowohl einen kuratierten operativen Datensatz als auch empirische Erkenntnisse bereit, die das Design zukünftiger hybrider und erklärbarer PdM Systeme unterstützen können.

dc.description.abstract

Rail operators increasingly face the challenge of preventing costly disruptions by detecting failures in advance. Predictive Maintenance (PdM) offers a promising approach, yet many existing studies rely on highly curated benchmark datasets, underutilize asset-context information, and often neglect the impact of temporal design on model performance. As a result, their applicability to real-world metro fleets remains limited.This thesis addresses these shortcomings by investigating supervised and unsupervised Machine Learning (ML) approaches for anomaly detection in a European metro provider’s V-train fleet. A Random Forest (RF) was trained on window-aggregated sensor features enriched with asset history, while an Long Short Term Memory Autoencoder (LSTM-AE) was applied to raw sensor sequences. A time-aware evaluation protocol systematically varied feature/sequence windows and anticipatory label horizons, and a new event-aware dataset was curated by aligning sensor data with documented failures and revisions.The results show that RF achieved higher overall PdM (F1 = 0.21) due to superior Precision, while the LSTM-AE reached very high Recall (0.92) and in several cases provided earlier warning signals. Performance proved highly sensitive to temporal design, whereas RF benefited from fine-grained feature windows and longer horizons, while the LSTM-AE required longer sequences with shorter horizons. Importantly, asset history variables ranked among the most influential predictors, underscoring the value of contextual features.In conclusion, this work demonstrates that PdM on real-world metro data is feasible when temporal configuration and asset context are explicitly considered. It highlights the complementary strengths of supervised and unsupervised ML models and provides both a curated operational dataset and empirical insights that can guide the design of future hybrid and explainable PdM systems.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Prädiktive Wartung (PdM)

dc.subject

Maschinelles Lernen (ML)

dc.subject

Anomalieerkennung

dc.subject

Überwachtes & Unüberwachtes Lernen

dc.subject

U-Bahn-Fahrzeugdaten

dc.subject

Sensor- & Asset-Daten

dc.subject

Zeitliche Auflösung

dc.subject

Predictive Maintenance (PdM)

dc.subject

Machine Learning (ML)

dc.subject

Anomaly Detection

dc.subject

Supervised & Unsupervised Learning

dc.subject

Metro Vehicle Data

dc.subject

Sensor & Asset Data

dc.subject

Temporal Resolution

dc.title

Pattern Recognition for Data-Driven Maintenance in Metro Trains: A Comparative Analysis of Supervised and Unsupervised Approaches on Time-Series Data

dc.title.alternative

Mustererkennung für datengetriebene Wartung in U-Bahn-Zügen: Eine vergleichende Analyse überwachter und unüberwachter Ansätze auf Zeitreihendaten

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2025.130344

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Stefan Helm

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Steiner, Andreas

tuw.publication.orgunit

E330 - Institut für Managementwissenschaften

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17783597

dc.description.numberOfPages

108

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0002-2705-0396

tuw.assistant.orcid

0009-0006-8427-2872

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.fulltext

with Fulltext

item.openaccessfulltext

Open Access

item.mimetype

application/pdf

item.languageiso639-1

item.grantfulltext

open

item.openairetype

master thesis

item.cerifentitytype

Publications

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2.89 MB)

In Copyright

Show simple item record

Page view(s)

checked on Feb 20, 2026

Download(s)

checked on Feb 20, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM