Gratl, M. (2021). Entwicklung eines Modells zur Handgestenklassifikation am Beispiel eines Interaktionssystems in der industriellen Baustellenmontage [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.89388
Bei der Montage großer Bauteile wird häufig die industrielle Baustellenmontage als Organisationsform gewählt. Bei dieser Organisationsform kann die Informationsbereitstellung Einsparpotential bieten. Der Stand der Technik ermöglicht es bereits Anweisungen und Informationen für den Monteur direkt am Bauteil darzustellen. Die Interaktion mit solchen Werkerinformationssystemen könnte als Handgestensteuerung konzipiert werden, um Wegzeiten bei der Informationsbereitstellung einzusparen. Techniken des Maschinellen Lernen (engl. Machine Learning) und des Maschinellen Sehen (engl. Computer Vision) erlauben es dabei unterschiedliche Handgesten zu erkennen, zu klassifizieren und in weiterer Folge Interaktionen auszulösen. Zur Erstellung eines ML- Klassifikationsmodels ist ein adäquater Datensatz, der die Funktionen des Interaktionssystems abbildet, notwendig. Die vorliegende Arbeit untersucht Handgestendatensätze und analysiert selbige auf deren Brauchbarkeit in der industriellen Baustellenmontage. Nachdem Eckpunkte und Charakteristiken von vorhandenen Datensätzen aufbereitet worden sind, wird eine Nutzwertanalyse zur Bewertung der Eignung der Datensätze für die industrielle Baustellenmontage durchgeführt. Die wichtigsten Erkenntnisse aus der Analyse sind die zunehmende Menge an Daten über die letzten Jahre, die sich mit der vorherrschenden allgemeinen Entwicklung hin zu einer erhöhten Datenmenge deckt. Bei der durchgeführten Nutzwertanalyse stellte sich heraus, dass der Einsatz von vordefinierten Handgestendatensätzen für die industrielle Baustellenmontage oft nicht zielführend ist. Das Erstellen eines neuen Datensatzes stellt somit eine sinnvolle Alternative dar. Auf Basis der Erkenntnisse aus der Datensatz-Analyse und einschlägiger Normen wird ein Datensatz für statische Handgesten erstellt. Insgesamt besteht er aus 2200 Bildern eingeteilt in 6 Gestenkategorien durchgeführt von 2 Akteuren. Der Datensatz wird anschließend verwendet um mit Techniken des Maschinellen Lernens sowie des Maschinellen Sehens einen Algorithmus zu trainieren der effektiv und in Echtzeit verschiedene Gesten unterscheidet. Unter Verwendung der Programmiersprache Python und ihrer Deep Learing Bibliotheken Tensorflow und Keras wird der Algorithmus mit Hilfe der Technik „Transfer learning“- Technik trainiert. Als Basismodell des Algorithmus wird ein leichtgewichtiges Convolutional Neural Network (CNN), nämlich das MobileNetV2 Modell verwendet. Die Parameter des Modells werden in einem iterativen Prozess angepasst. Schließlich wird das Klassifizierungsmodell auf einem Testsatz, der mit drei Testpersonen aufgezeichnet wurde, getestet. Mit einer durchschnittlichen Genauigkeit von 99,6% konnten die unterschiedlichen Gesten korrekt klassifiziert werden. Ein Test in Echtzeit lieferte ein schwächeres Ergebnis mit 94,6% korrekter Gestenvorhersagen über die Testdauer.
de
Industrial site assembly is often chosen as the organizational form for the assembly of large components. In this form of organization, the provision of information can offer potential savings. The state of the art already makes it possible to display instructions and information for the worker directly on the component. The interaction with such worker information systems could be designed as hand gesture control to save travel time for information provision. Machine Learning and Computer Vision techniques allow to recognize and classify different hand gestures and to trigger interactions. In order to build a ML classification model, an adequate dataset representing the features of the interaction system is necessary. This thesis investigates hand gesture datasets and analyzes them for their usefulness in industrial site assembly. After key points and characteristics of existing datasets have been prepared, a utility analysis is performed to evaluate the suitability of the datasets for industrial site assembly. The main findings from the analysis are the increasing amount of data over the last years, which is in line with the prevailing general trend towards an increased amount of data. During the utility analysis performed, it was found that the use of predefined hand gesture datasets for industrial site assembly is often not purposeful. Thus, the creation of a new data set represents a reasonable alternative. Based on the findings of the data set analysis and industry standards, a data set for static hand gestures is created. In total, it consists of 2200 images divided into 6 gesture categories performed by 2 actors. The dataset is then used to train an algorithm that effectively distinguishes different gestures in real time using machine learning techniques. Using the Python programming language and its deep learning libraries Tensorflow and Keras, the algorithm is trained using the transfer learning technique. A lightweight Convolutional Neural Network (CNN), namely the MobileNetV2 model, is used as the base model of the algorithm. The parameters of the model are adjusted in an iterative process. Finally, the classification model is tested on a test set recorded with three subjects. With an average accuracy of 99.6%, the different gestures could be correctly classified. A test in real time provided a weaker result with 94.6% correct gesture predictions over the test duration.