E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2011
-
Number of Pages:
119
-
Keywords:
Emotion; Verfremdung; Anonymisierung
de
emotion; video obfuscation; anonymization
en
Abstract:
In dieser Diplomarbeit wird Video- und Audiomaterial aufgrund automatischer Bewertung des Emotionsgehalts sprachlicher Äußerungen verfremdet. Zum einen dient diese Verfremdung der Anonymisierung der dargestellten Personen und zum anderen wird dabei eine hervorgehobene Darstellung der Emotionen erzielt. Häufig konzentriert sich die Emotionserkennung auf die Unterscheidung einiger weniger Basisemotionen wie Freude, Trauer, Wut, Angst etc. In dieser Arbeit werden die Emotionen in einem dreidimensionalen Ansatz im R 3-Raum kontinuierlich beschrieben, wobei der Raum durch die drei Emotionsprimitive Valenz, Arousal und Dominanz aufgespannt wird. Die Emotionserkennung erfolgt dabei in einem Mustererkennungsprozess, für den Support Vector Regression und ein adaptierter k-Nearest-Neighbor-Algorithmus zum Einsatz kommen. Für Training und Test des Maschinenlernverfahrens wird die "Vera am Mittag"-Datenbank aus dem HUMAINE-Projekt verwendet. Sie beinhaltet Video- und Audiomaterial, welches in einer Evaluierung durch 17 Personen emotional bewertet wurde. Insgesamt werden 69 prosodische und spektrale Merkmale wie beispielsweise die Tonhöhe, RMS-Energie, MFCC-Koeffizienten etc. aus der Tonspur extrahiert. Für jede Gefühlsdimension wird ein Ranking der Relevanz erstellt. Die ermittelten Emotionen werden anschließend für die Manipulation des Materials herangezogen. Für die visuelle Verfremdung werden dabei drei Verfahren implementiert: ein kantenbasierendes, ein symbolbasierendes und eines, um einen impressionistischen Effekt zu erhalten. Die Emotionen wirken dabei auf verschiedene Parameter der Videoeffektfilter ein. Die Tonspur wird durch eine Art Vocoder verzerrt und anonymisiert.<br />
de
This master thesis is about obfuscation of persons shown in a video. The obfuscation process is based on an automatic evaluation of emotional speech. On the one hand visible and audible individuals are anonymized by the implemented effects. On the other hand the effects are supposed to reconstruct or even emphasize emotions that are lost during the anonymization process. Many works on emotion recognition focus on distinguishing between the so-called basic emotions proposed by Ekman like joy, sadness, anger, fear, etc. In this thesis, emotions are described in a continuous, three-dimensional space, the coordinate axes of which correspond to the emotion primitives valence, arousal and dominance. The emotion recognition is accomplished by two different machine learning algorithms namely Support Vector Regression and a modified k-Nearest-Neighbor algorithm. The training and test sets for the machine learning process are taken from the German "Vera am Mittag" database out of the HUMAINE project. The dataset contains twelve hours of annotated and ready-to-use video and speech. In this work 69 prosodic and spectral features such as pitch, RMS or MFCC are used for emotion recognition. A separate ranking of all features is created for each of the three emotion primitives. Three different visual anonymization effects are implemented: an edge based effect, a symbolic based effect and an effect for a hand-painted look. The emotion primitives act as steering parameters for the effects and thus directly influence their appearance. Voice is anonymized by applying a vocoder-like effect.<br />
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in engl. Sprache