Fuchs, C. (2013). Video-Segmentierung durch Analyse audiovisueller Merkmale [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2013.21668
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2013
-
Number of Pages:
87
-
Abstract:
Die Segmentierung und Klassifikation von Videos ist aufgrund der steigenden Anzahl von digitalen Videos manuell nicht mehr zu beherrschen. Es werden Algorithmen benötigt, die in der Lage sind aus dem Videomaterial relevante Informationen zu extrahieren, welche für aussagekräftige Beschreibungen geeignet sind. In der vorliegenden Diplomarbeit wird ein System zur Klassifikation von Videos durch Analyse audiovisueller Merkmale vorgestellt. Ein solches Vorhaben stellt auf beliebigem Videomaterial ein komplexes Problem dar, da diese Merkmale in der Lage sein sollen, die semantische Bedeutung von Bildern und Audiosignalen aus Videos zu erfassen. Aus diesem Grund wird in dieser Arbeit der Anwendungsbereich der Videoklassifikation auf Szenen der Muppet Show beschränkt. Zunächst werden grundlegende Ansätze und Methoden zur Videoanalyse in einer umfassenden Literaturstudie erklärt. Nach einem kurzen Überblick über die Entstehung der Muppet Show, zeigt eine Analyse des Videomaterials die charakteristischen Eigenschaften auf. Basierend auf den gewonnenen Erkenntnissen werden aussagekräftige audiovisuelle Merkmale und geeignete Klassifikationsmodelle vorgestellt, die für die Entwicklung eines Prototyps herangezogen worden sind. Zuletzt wird die Qualität der Klassifikationsresultate mit Hilfe verschiedener Evaluierungstests ausgewertet. Dabei wird aufgezeigt, dass sowohl visuelle Merkmale, wie die Verteilung von Farbe, als auch die Segmentierung des Audiosignals in Musik, Sprache und Umgebungsgeräusche in der Lage sind, die semantische Bedeutung von Videoszenen aus der Muppet Show zu erfassen.
de
Based on the increasing amount of digital videos the segmentation and classification of videos is manually no more controllable. Therefore there is a need for algorithms, which are able to filter out relevant information for suitable and significant descriptions within the video material. This diploma thesis presents a system for classification of videos through analyses of audiovisual features. Such a purpose states a complex problem on arbitrary video materials because those features should be able to gather the semantic meaning of pictures and audio signals out of videos. Therefore, this thesis is limited on the scope of the video classification using scenes of the Muppet Show. Initially basic approaches and methods for a video analysis will be explained in a detailed research. After a short overview of the development of the Muppet Show, a subsequently analysis of video material shows the characteristic attributes. Based on the gained knowledge significant audiovisual features and suitable classification models will be presented, which are consulted for the development of a prototype. Finally the quality of the classification results will be evaluated using different tests. The intention is to show that visual features such as the distribution of colours as well as the segmentation of audio signals in speak, music and environmental sounds are able to capture the semantic meaning of video scenes of the Muppet Show.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in engl. Sprache