Hahn, T. (2011). Event-driven 3D vision for human activity analysis in context of dance and fitness training of elderly people [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-43662
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2011
-
Number of Pages:
75
-
Keywords:
Ereignisorientiertes 3D Sehen; Menschlische Aktivitäten Analyse; Menschliche Bewegungen; Hidden Markov Models; Tanz und Fitness Übungen von ältere Personen; Maschinenlernen; relative Pixelanzahl; relative Disparität
de
Event-Driven 3D Vision; Human Activity Analysis; Human Motion; Hidden Markov Models; Dance and Fitness Training of Elderly People; Machine Learning; relative Pixel Count; relative Disparity
en
Abstract:
Im Bereich der menschlichen Gesten- beziehungsweise Bewegungserkennung wurden in den letzten Jahren einige wertvolle Ansätze entwickelt, wobei die Komplexität dieser Systeme von der Erkennung von einfachen Gesten bis zu komplexeren dynamischen Bewegungen, im Bereich der Computerinteraktion oder Rehabilitationsübungen reichen kann. Dabei werden vor allem Systeme die zum physischen Training für ältere Personen dienen immer interessanter, da die Bevölkerung immer älter wird und daher es in nicht allzu ferner Zukunft viel mehr ältere Personen, als heutzutage, geben wird.<br />Diese Diplomarbeit beschäftigt sich nun mit der Entwicklung von Algorithmen zur Erkennung von Bewegungen von Tanz- und Fitnessübungen für ältere Personen. Dabei soll das Modul im EU Projekt Silvergame vor allem dafür sorgen dass diese Personen ihre Fitness beziehungsweise Beweglichkeit auch im höheren Alter halten oder sogar verbessern. Um dies erreichen zu können, werden die Nutzer dazu animiert, vor ihrem TV Gerät gewisse Figuren und ganze Tänze nach zu tanzen, und Feedback über die Ausführung gegeben werden. Als Eingabegerät für das System soll dabei ein neuartiger event basierter 3D Sensor, welcher am AIT, Austrian Institute of Technology, entwickelt wurde, dienen. Ein wesentlich Unterschied zu anderen videobasierten Systemen ist, dass der Sensor nur Änderungen anhand von der Helligkeit in dem Sichtfeld aufzeichnet und so weniger Daten übertragen werden. Jedes Pixel ist autark und übertraÅNgt über ein Bussystem die Daten asynchron. Aus den Daten werden dann grundlegende Features für die zur Erkennung verwendete Klassifizierungsmethode extrahiert. Mittels einer Literaturrecherche werden die heute verwendeten Methoden zur Bewegungserkennung analysiert und die vielversprechendste Methode ausgewählt. Diese Methode soll danach, in Matlab als Entwicklungsumgebung implementiert werden, und mit Hilfe der Daten und der daraus berechneten Features evaluiert werden. Dabei sollen bei der Evaluierung neben der Berechnung der Erkennungsrate auch erste Laufzeiten analysiert werden.<br />Für eine Evaluierung wurde ein Beispieltanz, welcher sich in 8 unterschiedliche Aktivitäten gliedert, ausgewählt. Bei Testaufnahmen wurden 580 Beispiele der 8 Aktivitäten von 15 unterschiedlichen Personen mit dem 3D Sensor aufgezeichnet und in einer Datenbank gespeichert.<br />Mittels verschiedener Parameter wurde danach eine Kreuzvalidierung mit den implementierten Algorithmen durchgeführt. Dabei erreichten die besten Ergebnisse eine durchschnittliche Erkennungsrate von ungefähr 96%.<br />
de
Over the last years many implementations concerning the recognition of human motion have been developed. In doing so different systems for human motion detection reaching from recognition of simple gestures to more dynamic complex motions have been invented. The application area of these systems is thereby wide spread from input for Human Computer Interaction to human motion analysis in the field of rehabilitation exercises or sports.<br />Systems that are designed for elderly people are becoming more important, especially in the physical training application area. This is because the population is tending to live to an older age and there will be more and more elderly people in the near future.<br />In this thesis a system for recognition of human motion in the area of dance and fitness training for elderly people is introduced. This module within the EU project Silvergame is thereby intended to help elderly people to keep their level of health as well as to gain a higher fitness level so that they can stay healthy to an older age. With the system the users can then be encouraged to move more by performing the dance which they see on their home TV screen. In doing so such a dance consists of different human activities which the system recognizes. Furthermore, it also provides some sort of feedback via the given output device. As the input device, a novel event-driven 3D vision sensor, developed at the AIT Austrian Institute of Technology is used in this approach. What is special in this case is that only data is transferred if an intensity change in the field of view is detected. Therefore, less data then with ordinary video systems is generated. Another difference worth mentioning is that this information is communicated not frame-based but pixel wise.<br />Keeping this constraint in mind and based on the information transferred from this sensor, elementary features that are used as input for classification are obtained.<br />Through a detailed research of the literature about the up-to-date classification methods, the most promising technique and features for the motion detection system were chosen. This thesis thereby shows the performance of the designed application and points out the opportunity for further employments. Though it was significant how the chosen classification method can be used for the obtained features from the received data. Additionally first performance measurements were done.<br />For this first implementation MATLAB was chosen as the main platform and further applications shall be based on this gained knowledge.<br />For experimentation with the implemented algorithm a database including 580 samples with 8 different activities from 15 individuals, using the 3D sensor, was recorded. To obtain representative experimentation results a cross validation was applied and different settings were used to compare the results. Additionally, test sessions were done on different data sets and for the best results the training and evaluation time was recorded to point out the possibility of real-time usage. The best results thereby reached an average correct recognition rate of around 96%.<br />