Fink, L. F. (2022). Sound is context: Acoustic work step classification using deep learning [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.107003
Mechanical Engineering; Informatics; Deep Learning; Data Science; Human-Machine-Interaction; Cobot; Sound Classification; Convolutional Neural Networks; Spectrogram; Assistive Technologies
en
Abstract:
Heutzutage spielt manuelle Arbeit in Produktionsbetrieben immer noch eine große Rolle. Da Produkte und Prozesse immer komplexer werden, kann dadurch die manuelle Arbeit aber leiden. Moderne Assistenzsysteme, bei denen Menschen mit Maschinen zusammenarbeiten, können dem entgegenwirken und die Produktivität und Zufriedenheit der Arbeitenden hochhalten. Intelligente Maschinen können integriert mit Arbeitern Schritt für Schritt zusammenarbeiten, beispielsweise durch Arbeitsanweisungen und Informationen, Beschaffung von Bauteilen oder vorbereiten des nächsten Arbeitsschrittes. Es gibt auch Situationen, bei denen solch intelligente Systeme den Grad an Assistenz individuell auf die Arbeitskraft anpassen müssen, dies geschieht, um ihn weder über- noch unterfordern. Um solche Technologien einsetzten zu können, müssen Computer die Möglichkeit besitzen, ihre Umgebung und den Kontext wahrzunehmen, in dem sie sich befinden. Genau diese Thematik behandelt diese Diplomarbeit, die Bereitstellung von Kontext für die Maschine. Es gibt zwar bereits schon Möglichkeiten, dies zu erreichen, beispielsweise durch Kameras oder durch tragbare Sensoren. Das Problem bei Kameras sind aber Datenschutzbedenken und tragbare Sensoren behindern die Arbeitskraft oft in der Bewegung. Aus diesem Grund wurden bei dieser Arbeit Geräusche verwendet, um Kontext Awareness herzustellen. Weiters können Geräuscherkennung bestehende Computer Vision Anwendungen bezüglich Kontext Awareness weiter verbessern. Im Zuge dieser Arbeit ist ein System zu Erkennung von Produktionsgeräuschen entwickelt worden. Das System basiert auf der Verwendung von Deep Learning, welches die typischen Strukturen der Produktionsgeräusche selbst erlernt und diese somit richtig klassifizieren kann. Verwendet wurde ein Convolutional Neural Network (CNN), welches Log-Mel Spektrogramme der Geräusche als Input erhält. Die Geräusche stammen aus einem eigens dafür erstellen Produktionsgeräusch-Datensatz, welcher in der Pilotfabrik der TU Wien aufgenommen wurde. Das vorgestellte System liefert eine sehr hohe Klassifizierungsgenauigkeit, was beweist, das die Herstellung von Kontext durch Geräuschen möglich und machbar ist.
de
Nowadays, manual work still plays an important role in production companies. However, as products and processes become more complex, manual work can suffer as a result. Modern assistance systems, where humans and machines work together, can counteract this and keep productivity and employee satisfaction high. Intelligent machines can work together with workers in an integrated step-by-step manner, for example by providing work instructions and information, procuring components or preparing the next work step. There are also situations where such intelligent systems need to adapt their level of assistance individually to the worker, so as not to over- nor under-challenge them. In order to use such technologies, computers must be able to perceive their environment and the context with which they interact. This thesis deals with the topic of providing context to the machine. There are already ways to achieve this, for example through cameras or wearable sensors. The problem with cameras, however, are privacy concerns and wearable sensors often hinder the worker's movement. For this reason, sounds were used in this work to create context awareness. Furthermore, sound detection can further improve existing computer vision applications in terms of context awareness. The goal of this thesis was to develop a system to classify manufacturing sounds. The system is based on the use of deep learning, which learns the typical structures of the manufacturing sounds and can thus classify them correctly. A convolutional neural network (CNN) was used, which receives log-Mel spectrograms of the sounds as input. The sounds used stem from a specially created manufacturing sound dataset, which was recorded in the pilot factory of the Vienna University of Technology. The presented system delivers a very high classification accuracy, which proves that the creation of context through sounds is possible and feasible.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers