Pröll, M. R. (2022). Pedestrian crossing prediction in the context of autonomous driving [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.93700
Autonomes Fahren ist ein wichtiges Gebiet der Computer Vision und des maschinellen Lernens, in welchem in den letzten Jahren maßgebliche Fortschritte gemacht wurden. Erst vor Kurzem hat sich der Fokus in der Wissenschaft weiter in Richtung der Vorhersage der Handlungen von Verkehrsteilnehmern bewegt, wobei im Besonderen die Vorhersage der Handlungen von vulnerablen Verkehrsteilnehmern von Interesse ist. In dieser Arbeit evaluieren wir die Performance von state-of-the-art Computer Vision Systemen und Methoden des maschinellen Lernens für die Vorhersage von Straßenquerungen von Fußgängern (Pedestrian Crossing Prediction). Die meisten dieser Methoden nutzen Inputs, welche im Vorhinein generiert werden müssen. Wir untersuchen daher, wie sich das Ändern dieser Inputs und/oder der Netzwerkarchitektur auf die Vorhersagequalität auswirkt. Wir stellen fest, dass Faster R-CNN für die Detektion von Passanten besserere Ergebnisse liefert, wenn der Detektor nur mit Samples von Passanten trainiert wird, anstatt mit mehreren Klassen. Weiters zeigen wir, dass OpenPifPaf als Detektor für Passanten eine schlechtere Leistung als Faster R-CNN liefert. Bezüglich der Trajektorienvorhersage von Passanten (Pedestrian Trajectory Prediction) führen wir eine qualitative und quantitative Evaluierung der Vorhersageergebnisse des DTP Netzwerks durch. Das Netzwerk verwendet für die Vorhersage ausschließlich den optischen Fluss des Input Bildes. Die Ergebnisse zeigen, dass dieses Trajektorienvorhersagenetzwerk keine befriedigenden Ergebnisse liefert. Unsere Experimente mit Pedestrian Crossing Prediction zeigen, dass die Performance von SFRNN verbessert werden kann, wenn verlässlichere Posenschätzungen (Pose Estimations) von Passanten als Input verwendet werden. Für diese Experimente generieren wir die Posen mit HRNet. Durch die Verwendung dieser Posen erhöhen wir die durchschnittliche Genauigkeit (accuracy) über die JAAD und PIE Datensätze, im Vergleich zu den ursprünglichen Ergebnissen, um 10 Prozentpunkte. Außerdem ändern wir SFRNN so ab, dass der optische Fluss des Bildes anstatt der Posen verwendet wird. Diese Netzwerkversion erreicht eine um 8 Prozentpunkte höhere Genauigkeit über beide Datensätze. Dies deutet darauf hin, dass der optische Fluss auch ein nützlicher, alternativer Input für Pedestrian Crossing Prediction sein kann. Weiters stellen wir fest, dass durch die Verwendung von zusätzlichen Inputs, für das von uns evaluierte Netzwerk, keine Leistungssteigerung im Hinblick auf die Vorhersagequalität erreicht wird, sondern die Leistung sogar verschlechtert wird. Im Allgemeinen zeigt sich, dass die Vorhersagequalität zwischen den Datensätzen schwankt, was darauf hindeuten könnte, dass größere Datensätze verwendet werden sollten.
de
Autonomous driving is an important application area of computer vision and machine learning where significant advancements have been achieved in the last years. Only recently, the research in this field has shifted towards the behavior prediction of traffic actors and road users, especially regarding vulnerable traffic participants. In this thesis, we evaluate the performance of state-of-the-art computer vision and machine learning methods for pedestrian crossing prediction. Most of these methods rely on input data based on precomputed features. Hence, we investigate in particular how altering existing networks’ inputs and/or network structure can improve the performance. We find that the performance of Faster R-CNN is increased if its training relies only on pedestrian samples rather than multiple classes. We further show that OpenPifPaf does not perform as well as a dedicated object detector, such as Faster R-CNN, for detecting pedestrians. Regarding pedestrian trajectory prediction, we qualitatively and quantitatively evaluate DTP, which only uses optical flow as an input. We find that this simple trajectory predictor does not yield satisfactory results for this particular task. Our experiments on pedestrian crossing prediction show that the performance of SFRNN can be improved by using more reliable human pose estimations as input. In particular, we generate pose estimations with HRNet. Using these inputs, we achieve a 10 percentage points higher accuracy score over the JAAD and PIE datasets in comparison to the original, evaluated network. We also alter SFRNN to use optical flow instead of poses. This network increased the average accuracy over all datasets by 8 percentage points in comparison to the original version of SFRNN, which indicates that optical flow can be a useful alternative input for the task of pedestrian crossing prediction. We observe that adding more inputs to the crossing prediction network does not further increase the performance, but rather decreases it. Generally, we discover that the prediction performance fluctuates with different datasets, indicating that the used training data set should be augmented in size.