Schönfelder, B. (2025). Classification of vehicles based on audio data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.129623
Diese Arbeit untersucht das Potenzial der Fahrzeugklassifizierung auf Basis von Audiodaten und bietet eine Alternative oder Ergänzung zu traditionellen video-basierten Verkehrserkennungssystemen. Vier zentrale Forschungsfragen leiten diese Arbeit:die Genauigkeit der Fahrzeugzählung (RQ1), die anhand von Referenzdaten bewertet wird, die Machbarkeit der Fahrzeugtypklassifikation mittels maschinellem Lernen(RQ2), die ebenfalls gegen dieselben Referenzdaten evaluiert wird, der Einfluss der Hardware auf Echtzeitberechnungen (RQ3), der sich auf die bereits entwickelte und eingesetzte Infrastruktur bezieht, sowie die Gesamtzuverlässigkeit der audiobasierten Verkehrserfassung (RQ4) im Hinblick auf die verfügbaren Referenzdaten und die Messkonfiguration.Zur Beantwortung dieser Fragen wurden Daten aus einer Sensorbox mit Audioaufzeichnungskapazität verwendet, die neben einem bestehenden Videoerkennungssystem eingesetzt wurde. Die von der Videoerkennung gewonnenen Daten dienten als Referenz für die Bewertung der Leistung des Audioerkennungssystems. Ein Softwareprototyp, der maschinelles Lernen einsetzt, wurde entwickelt und erreichte eine Fahrzeugzählgenauigkeit von bis zu 98 was zeigt, dass eine Ereigniszählung die Zuverlässigkeit video-basierter Systeme erreichen kann. Es konnte zudem beobachtet werden, dass die Hypothese, wonach Videoerkennungssysteme bei schlechter Sicht Schwierigkeiten haben könnten, während Audio-basierte Systeme weiterhin zuverlässig bleiben, nicht verworfen werden kann. Für die Klassifizierung von Fahrzeugtypen erreichten die im Rahmen dieser Arbeit trainierten maschinellen Lernmodelle eine Spitzengenauigkeit von 95–97% und eine durchschnittliche Genauigkeit von 88,7%.Dies demonstriert die Machbarkeit der Audio-basierten Klassifizierung, obwohl Klassenungleichgewichte zugunsten von Autos dazu führten, dass der Klassifikator letztlich als binär einzustufen ist.Hardwarebegrenzungen stellten eine Herausforderung dar; Der Khadas VIM3 - Mikrocomputer, der das Herzstück der verfügbaren Sensorbox bildet und auch die Erkennungspipeline hosten sollte, erwies sich aufgrund von Speicherbeschränkungen als ungeeignet für die Verarbeitung an Bord, wodurch eine Echtzeitbereitstellung unter den aktuellen Bedingungen nicht möglich war. Nichtsdestotrotz repräsentierte der entwickelte Workflow den vorbeifahrenden Verkehr mit hoher Genauigkeit, insbesondere unter der Bedingung, dass Autos den Großteil des Verkehrs ausmachten,was auch die am Teststandort beobachtete Zusammensetzung war. Während die Methoden am Teststandort validiert wurden, sind weitere Studien erforderlich, umihre Anwendbarkeit in unterschiedlichen Verkehrsumgebungen zu bewerten.Diese Ergebnisse unterstreichen das Potenzial der Audio-basierten Fahrzeugerkennung als komplementären Ansatz zu Videosystemen und bieten bedeutende Implikationen für skalierbare und kosteneffiziente Lösungen zur Verkehrserfassung.
de
This thesis explores the potential of classifying vehicles using audio data, offering an alternative or addition to traditional video-based traffic detection systems. Four primary research questions guide this work: the accuracy of vehicle counting (RQ1)which is evaluated against reference data, the feasibility of vehicle type classification via machine learning (RQ2) which is also evaluated against the same reference data, the influence of hardware on real-time computations (RQ3) which adresses the already developed and deployed infrastructure, and the overall reliability ofaudio-based traffic representation (RQ4) in respect to available reference data and the measurement setup.To address these questions, data from a sensor box with audio recording capabilities which is deployed alongside an existing video recognition system was used. The data obtained by the video recognition system served as reference data for evaluating the performance of the audio recognition system. A software prototype leveraging machine learning was developed, achieving a vehicle counting accuracy of up to 98%,proving that a counting of events can approach the reliability of video based systems.It could also be observed that the hypothesis that video recognition systems would struggle with bad visibility while audio based systems will still be reliable can’t be abandoned. For vehicle type classification, the machine learning models trained induring thesis reached a peak detection accuracy of 95–97% and an average of 88.7%,demonstrating the viability of audio-based classification despite class imbalancesfavoring cars which lead to the classifier being of binary type.Hardware limitations posed challenges; the Khadas VIM3 - microcomputer whichis the heart of the available sensorbox and should also have been able to host the detection pipeline was insufficient for on-board processing due to memory constraints,making real-time deployment infeasible under current conditions. Nevertheless, the developed workflow successfully represented passing traffic with high accuracy,provided the prevalence of cars dominated the traffic composition which was also the observed composition at the test site. While the methods were validated at the test location, further studies are required to assess their applicability across varying traffic environments.These findings underscore the promise of audio-based vehicle detection as a complementary approach to video systems, with significant implications for scalable and cost-effective traffic monitoring solutions.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers