Gergelyi, Á. (2026). Synthetic data-driven training for graffiti detection in railway scenarios [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.135131
Graffiti; Object Detection; Synthetic Data; Object Insertion; Training Methodology; YOLO
en
Abstract:
Obwohl Computer Vision-Lösungen durch Künstliche Intelligenz revolutioniert wurden, stoßen auch diese Systeme an ihre Grenzen. KI-basierte Algorithmen des maschinellen Lernens benötigen große Datenmengen für ihr Training, deren Mangel einen erheblichen Engpass im Trainingsprozess darstellen kann. Ein Lösungsansatz besteht darin, mithilfe verschiedener Computer-Algorithmen synthetische Daten zu erzeugen. Diese sind zwar möglicherweise weniger genau als reale Daten, aber deutlich leichter zugänglich. In dieser Arbeit untersuche ich eine mögliche Methodik zur Generierung synthetischer Daten, insbesondere im Hinblick auf deren Verwendung zum Trainieren von Software zur Graffiti-Erkennung im Eisenbahnbereich. Graffiti können Eisenbahnunternehmen Probleme bereiten, da sie Züge beschädigen, zu einem negativen öffentlichen Image des Unternehmens führen und notwendige Markierungen und Schilder verdecken können, die außen an den Zügen sichtbar sein müssen. Daher wäre ein System, das das Unternehmen automatisch über Graffiti an Zügen informiert, von großem Nutzen. Allerdings existieren keine großen öffentlichen Datensätze mit Bildern von Zügen mit Graffiti. Da Graffiti zudem in Form, Größe und Farbe sehr vielfältig sind, sollte ein entsprechender Datensatz eine ähnliche Vielfalt aufweisen. Diese Arbeit zeigt die Machbarkeit der Erzeugung synthetischer Graffiti mithilfe von Computerprogrammen, die die Objekterkennung beschleunigen können. Die Graffiti werden hierfür mit einem Online-Tool zur KI-gestützten Text-zu-Bild-Konvertierung generiert. Ein umfangreicher Trainings-datensatz mit Segmentierungsmasken wird verwendet, und mithilfe dieser Masken werden die Graffiti überlagert. Dieser neu erstellte Datensatz dient anschließend zum Trainieren eines auf YOLOv9 basierenden Objekterkennungstools. Die Ergebnisse dieses Trainings werden anhand eines kleinen realen Datensatzes getestet. Darüber hinaus werden in dieser Arbeit verschiedene Methoden zur Datenanreicherung untersucht, um die Effizienz des Trainings zu verbessern, sowie eine neue Evaluierungsmethode zur besseren Beurteilung der Trainingsergebnisse. Mit rein synthetischen Daten konnte die Präzision von 20% auf 40% und der mAP@0,5-Wert von 10% auf 30% im Vergleich zu einem Basismodell, das mit einem kleinen, öffentlich verfügbaren Graffiti-Datensatz trainiert wurde, gesteigert werden. Als der synthetische Datensatz mit 5566 Bildern um lediglich 128 reale Graffiti-Bilder ergänzt wurde, stiegen sowohl die Präzision als auch der mAP@.5-Wert auf 60%.
de
Although computer vision solutions have been revolutionized through Artificial Intelligence, these systems also have limits. AI-based machine learning algorithms require large amounts of data for their training process, the lack of which can be a serious bottleneck in the training pipeline. A proposed solution to this problem is to use various computer algorithms to produce synthetic data, which may be less accurate than real data but much more accessible. In this thesis, I examine a possible synthetic data generation methodology, specifically in the context of using synthetic data generated to train graffiti detection software for railway environments. Graffitis can cause problems for railway companies as they damage trains, lead to a negative public perception of the company, and might cover up the necessary markings and signs that must be visible on the outside of the train. Therefore, a system that could automatically alert the company to the existence of graffiti on trains could be beneficial. However, there are no large public datasets that contain images of graffitis on trains. Furthermore, graffitis are diverse in shapes, sizes, and colors, and thus a dataset should be similarly diverse. This thesis shows the viability of using computer programs to create synthetic graffitis that can be used to accelerate the object detection pipeline. For this graffitis are being generated by an online text-to-image AI generation tool. A large data set of trains with segmentation mask is taken and, with the help of the segmentation masks, the graffiti is overlaid on the train. This newly built data set is later used to train a YOLOv9 based object detection tool, and the result of this training is tested on a small real dataset. This thesis will further test different data enhancement methods to improve the efficiency of the training and a new evaluation method to better assess the training results. Using purely synthetic data, precision increased from 20% to 40% and mAP@.5 increased from 10% to 30%, compared to a baseline model trained on a small, publicly available graffiti data set. Furthermore, when the synthetic dataset, containing 5566 images, was supplemented with only 128 real graffiti images, the precision, recall and mAP@.5 both increased to 60%.