Rybnikova, T. V. (2022). Design and evaluation of a sound application using acoustic scene classification [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.87561
E194 - Institut für Information Systems Engineering
-
Date (published):
2022
-
Number of Pages:
116
-
Keywords:
Audio Scene Classification; Signal Processing; Machine Learning; App Programming
en
Abstract:
Acoustic Scene Classification (ASC) verfolgt das Ziel, die Umgebung anhand von Audioaufnahmen zu identifizieren, in denen sie aufgenommen wurden. Die Entwicklung von Computerverfahren zur Erkennung der Umgebung ist Teil der Forschung in Bereichen wie maschinelles Lernen, Robotik und künstliche Intelligenz. Diese Arbeit untersucht die Verwendung von ASC im privaten Bereich, indem ein Prototyp entwickelt und eine Fallstudie durchgeführt wird, um zu evaluieren, ob mit dieser Technologie eine bestimmte psychologische Wirkung erzielt werden kann. Insbesondere untersuchen wir, ob eine akustische Illusion, sich in einer anderen Stadt zu befinden, erzeugt werden kann, wenn die Geräuschkulisse des Benutzers basierend auf dem Klassifikationsergebnis mit einer anderen Geräuschkulisse überlagert wird.In dieser Arbeit erforschen wir den aktuellen Stand der Technik für ASC, indem wir die andie DCASE 2020 Challenge eingereichten Systeme untersuchen. Anhand der Auswertung wählen wir ein Basismodell, das ein ResNet ist und Log-Mel Spektrogramme ergänzt durch Log-Mel Deltas und Delta-Deltas als Eingabe akzeptiert. Wir modifizieren das Netzwerk, um 9 akustische Szenen zu klassifizieren. Der TAU Urban Acoustic Scenes 2020 Mobile Datensatz wird zum Trainieren des Modells verwendet. Um das Netz zu kalibrieren,experimentieren wir mit verschiedenen Hyperparametern, Verlustfunktionen und Data Augmentation Strategien und vergleichen die Ergebnisse anhand der Testgenauigkeit. Wir erreichen die beste Leistung mit einer Testgenauigkeit von 77, 99%, indem wir Categorical Focal Loss und Mixup als Data Augmentation Methode verwenden.Für den Prototypen wählen wir 4 Städte aus, die unterstützt werden sollen, und erstellen einen Geräuschkulissen-Datensatz mit Audioaufnahmen für jede Szene und Stadt, indem wir die Audiodaten aus Videos extrahieren, die den gewünschten Inhalt enthalten. Dann entwickeln wir eine Serveranwendung mit Flask, die eine API bereitstellt, um Vorhersagen aus dem Modell zu erhalten und Daten über die durchgeführten Klassifizierungsprozesse zu protokollieren. Schließlich entwerfen und implementieren wir eine mobile Anwendung mit dem Flutter SDK. Die Anwendung fordert vom Server in regelmäßigen Abständen Vorhersagen für Audiodaten an, die sie mit dem Mikrofon des Geräts aufgezeichnet hat. Basierend auf dem Klassifizierungsergebnis überlagert die mobile Anwendung die akustische Umgebung des Benutzers, indem sie eine Audioaufnahme für die erkannteSzene und die ausgewählte Stadt aus dem Geräuschkulissen-Datensatz abspielt.Schließlich verwenden wir den Prototypen in einer Fallstudie, in der eine Gruppe vonTeilnehmern die mobile Anwendung in einem vordefinierten Rahmen testet. In der Auswertung schätzen wir die Genauigkeit des Klassifizierers in einem realen Szenariomit 65%. Wir entdecken, dass die akustische Illusion, sich in einer anderen Stadt zu befinden, durch den Prototypen erzeugt wird. Außerdem zeigen wir, dass diese Illusionumso häufiger erlebt wird, je genauer die Klassifizierung wahrgenommen wird und je persönlicher die Beziehung zwischen dem Nutzer und der ausgewählten Stadt ist.
de
Acoustic Scene Classification (ASC) aims to identify the environmental surroundings from audio recordings in which they were collected. Developing computational methods to recognize the environments is part of the research in fields such as machine learning,robotics and artificial intelligence. This work explores the usage of ASC in the privatesector by developing a prototype and performing a case study in order to evaluate if a certain psychological effect can be achieved with this technology. In particular, we examine if an acoustic illusion of being in a different city can be created when the user’s soundscape is overlaid with a different soundscape based on the classification result.In this thesis, we explore the current state-of-the-art solutions for ASC by investigating the submissions of the DCASE 2020 challenge. Based on the evaluation we choose a baseline model, which is a ResNet that accepts log-mel spectrograms complemented by log-mel deltas and delta-deltas as input. We modify the network in order to classify 9 acoustic scenes. The TAU Urban Acoustic Scenes 2020 Mobile dataset is used to train the model. To calibrate the network, we experiment with different hyperparameters, loss functions and data augmentation strategies and compare the results based on the test accuracy. We achieve the best performance with a test accuracy of 77.99% by using categorical focal loss and Mixup as data augmentation technique.For the prototype we select 4 cities to support and create a soundscape dataset including audio samples for each scene and city by extracting the audio data from videos that contain the desired content. Then, we develop a server application with Flask to provide an API to get predictions from the model and to log data about the performed classification processes. Eventually, we design and implement a mobile application using the FlutterSDK. The application requests at intervals predictions from the server for audio data,that it recorded using the device’s microphone. Based on the classification result, the mobile application overlays the acoustic environment of the user by playing an audiosample for the recognized scene and the selected city from the soundscape dataset.Finally, we use the prototype in a case study where a group of participants tests the mobile application within a predefined scope. In the evaluation, we estimate the classifier’saccuracy in a real life scenario with 65%. We discover that the acoustic illusion of being in a different city is created by the prototype. Additionally, we show that this illusion is experienced more often the more accurate the classification is perceived and the closer the personal relationship between the user and the selected city is.