Zima, M. (2012). Hand/Arm gesture recognition based on Address-Event-representation data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-54949
Gestenerkennung ist spätestens seit dem Erscheinen vom Microsofts Kinect Sensor eine weitreichend bekanntes Thema. Da Gesten ein vom Menschen natürlich eingesetztes Kommunikationsmittel darstellen verspricht man sich von auf Gestenerkennung basierenden Benutzerinterfaces eine Verbesserung der Interaktion zwischen Menschen und Computern. Auch im Zuge des AAL Projektes FoSIBLE soll eine gestenbasierte Benutzeroberfläche älteren Menschen die Interaktion mit einem digitalen System erleichtern. Aber nicht nur neue Benutzerinterfaces sind von Interesse, auch die Frage wie die Bewegung von Menschen erfasst wird kann auf vielfältige Art und Weise gelöst werden.<br />In dieser Diplomarbeit wird untersucht, ob die vom UCOS Sensor generierten AE Daten zur Erkennung von Hand/Arm Gesten verwendet werden können. Die Arbeit dient als Grundlage für das zukünftige Ziel, auf Basis des UCOS Sensors ein integriertes System zur Gestenerkennung zu entwickeln. Der UCOS Sensor ist ein neuartiger, vom AIT10 entwickelter, biologisch inspirierter 3D Sensor, welcher auf temporalen Kontrast aufgrund von Szenendynamiken reagiert und die so gewonnenen Pixelinformationen auf in Form von Adress-Events auf asynchroner Basis sendet. Innerhalb dieser Adress-Events sind auch Trajektorien von bewegten Objekten, wie beispielsweise Händen, encodiert. Eine speziell für diese Anwendung modifizierte Firmware ermöglicht es, diese Trajektorien aus dem Adress-Event Strom zu filtern.<br />Aus diesen Daten wurden grundliegende Features berechnet, welche dann für eine Klassifikation durch Hidden Markov Modelle und durch einen Entscheidungsbaum verwednet wurden. Die beiden Klassifikationsmethoden wurden mit verschieden großen Gesten-Sets bestehend aus zehn, acht und vier vordefinierten Gesten trainiert. Jedes der Gesten-Sets enthielt mindestens 52 Samples. Die Ergebnisse beider Methoden wurden miteinander verglichen.<br />Für die Evaluierung wurden zehn verschiedene Gesten (acht direktionale Gesten, eine Auswahlgeste und eine Retourgeste), welche zur Steuerung eines Multimediainterfaces vorgesehen sind, definiert. Bei Testaufnahmen wurden 1463 Gesten aufgenommen und nach einer manuellen Annotation in einer Gestendatenbank gespeichert. Diese Daten wurden dann zum Trainieren der Klassifikatoren verwendet. Mittels verschiedener Parameter wurde dann eine Kreuzvalidierung der Algorithmen durchgeführt. Dabei ergaben sich mit beiden Methoden für zehn Gesten Erkennungsraten um die 90%, für acht Gesten Erkennungsraten um 95% und für vier Gesten Erkennungsraten nahe 100%.<br />
de
With the appearance of Microsofts Kinect sensor gesture recognition has become a commonly discussed topic. Since gestures are a natural form of communication used by humans, interfaces that are controlled by gestures recognition is a promising way to improve the interaction between humans and computers. Therefore also the FoSIBLE project, part of the AAL program, introduces a gesture controlled user interface to ease up the interaction for elderly people using a digital system. But not only new user interfaces are interesting in context with gesture control, but also the question how the motion of humans is captured has different answers.<br />In this thesis it is evaluated, if the AE data generated by the UCOS sensor can be used for hand/arm gesture recognition. The results from this are a first step for the future development of an embedded gesture recognition device based on the UCOS sensor. The UCOS sensor is a novel biologically inspired 3D sensing device developed by AIT5 that senses scene dynamics and exclusively transmits edge information of moving objects while hiding static areas. The so gathered pixel information data are communicated via a sparse, asynchronous protocol called address-event-representation. Trajectories of moving objects like hands/arms are also encoded within this address-event data. A specially modified firmware for gesture recognition enables filtering these trajectories out of the address-event stream. Based on this data features are calculated which are used to classify the gestures using different machine learning methods, the Hidden Markov Model and the Decision Tree. Both classification methods are trained with different sized sets of gestures containing ten, eight and four gestures. From each gesture at least 52 samples are used to evaluate the gesture recognition. The results of the Hidden Markov Model and the Decision Tree are compared with each other.<br />For Evaluation ten different gestures (eight directional gestures, a select gesture and a return gesture) which are intended to control a multimedia interface were defined. Totally 1463 gestures were recorded, annotated and stored in a gesture database. The classifiers were trained with gestures from this database. Varying the parameters and using cross validation following results were obtained for both methods: Recognition rate with ten gestures approx. 90%, recognition rate with eight gestures approx. 95% and recognition rate with four gestures approx. 100%.