Straka, K. (2018). Inhaltsbasierte Suchmaschine für Videos von Parlamentssitzungen [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.25683
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2018
-
Number of Pages:
86
-
Keywords:
Content-Based Video Retrieval; Audio-Analyse
de
Content-Based Video Retrieval; Audio Analysis
en
Abstract:
Große unstrukturierte Videodatensammlungen automatisiert und damit effizient durchsuchbar zu machen, ist eine Aufgabe an die Wissenschaft, deren Lösung für viele Bereiche z.B. Filmarchive, Online-Mediatheken, Videoüberwachung, Video-Lernplattformen große Bedeutung hat. Ein gängiger Ansatz hierfür sind manuell generierte Inhaltsindizes, die durch Speicherung von Videoframes, versehen mit Schlagwörtern oder textuellen Beschreibungen, produziert werden. Diese sind allerdings extrem zeitaufwändig in der Erstellung, außerdem ungenau und unvollständig. Große Mengen an enthaltener Information gehen dadurch für die Suche und somit für die Wiedergabe verloren. In dieser Diplomarbeit werden deshalb die Möglichkeiten des aktuelleren Konzeptes der „inhaltsbasierten“ Datensuche am Beispiel des Einsatzes für die Segmentierung und Klassifikation von Videomitschnitten österreichischer Nationalratssitzungen erforscht. Ziel ist es, ohne manuelle Indexierung automatisiert und auf multimodaler Basis Audiound Bildmerkmale zu extrahieren und damit entsprechende Klassifikatoren zu trainieren, sodass diese für die Klassifizierung von Audioereignissen und Personen eingesetzt werden können. Der Fokus der Klassifizierung liegt dabei auf der Erfassung von Szenen, bei denen die Stimmung im Sitzungssaal von der klassischen Grundstimmung einer Rede abweicht, und damit einen Hinweis auf relevante Ereignisse in den Sitzungen liefert. Die Erkennung der handelnden Personen inklusive ihrer Gesichtsemotion ist der zweite große Schwerpunkt dieser Arbeit. Gestartet wird mit einem Überblick über die Grundlagen der inhaltsbasierten Videoverarbeitung mit den Teilbereichen Videosegmentierung, Merkmalsextraktion aus Bild- und Audiodaten und Klassifizierung. Außerdem werden die Methoden zur statistischen Evaluierung der Ergebnisse vorgestellt, gefolgt von einer Übersicht verwandter Forschungsarbeiten. Danach folgt die Erklärung des anhand der gewählten Merkmale und Klassifizierungsmethoden implementierten Prototyps. Den Abschluss bildet die statistische Auswertung der Klassifizierungsergebnisse, die zeigt, dass der „inhaltsbasierte“ Ansatz für die Merkmalsextraktion und Klassifizierung durchaus geeignet für eine Detektion von relevanten Ereignissen und Personen in Parlamentsvideos ist und eine aufwändige manuelle Indexierung im Vorfeld nicht benötigt. Es wird dargestellt, dass die Audiomerkmale im vorliegenden Fall aussagekräftiger sind als die Bildmerkmale. Die Fokussierung auf die Erkennung von Audioereignissen zur Detektion von relevanten Szenen hat sich aus diesem Grund als richtig erwiesen. Speziell die Klassifizierung der Gesichtsemotion hat sich als problematisch herausgestellt, da die Gesichtsmimik der Abgeordneten in vielen Fällen für eine korrekte Auswertung nicht ausgeprägt genug ist.
de
Making big, unstructured video data collections searchable fully automated and efficiently is a scientific task whose solution would be of big interest. Many data collections like film archives, online media centres, video surveillance archives and online learning platforms depend on an efficient search structure. It is common to use manually generated content indices for this purpose. These indices are produced by saving video frames including metadata like keywords or textual annotations. This task is extremely time-consuming. The produced indices are mostly inexact and incomplete. Huge amounts of information are lost for search and retrieval by this approach. Therefore the possibilities of the more current concept of „content based“ data search are investigated with this master’s thesis, as an example of using this approach for segmentation and classification of videos from Austrian parliament sessions. The aim is the automated and multimodal extraction of audio and image features for training appropriate classifiers in order to use them for classification of audio events and persons. The main focus of the classification lies in the detection of scenes where the atmosphere in the parliament chamber is different from the classical speech-atmosphere, which would be an evidence of interesting events during the sessions. The recognition of acting parliamentarians - including their facial expression - is the second big focus of this work. This paper starts with an overview of the basic principles of “content based” video retrieval including its subsections: video segmentation, feature extraction from image and audio data and classification. Furthermore, methods for the statistical evaluation of the results will be presented, followed by an overview of related research papers. Afterwards, an explanation of the implemented prototype on the basis of the chosen features and classification methods is given. Finally, the statistical evaluation of the classification results is introduced, which show that the „content based“ approach for feature extraction and classification is definitely appropriate for the detection of relevant events and persons in videos of parliament sessions without the need for complex, manual indexing in advance. It is shown that, in the case of parliament session videos, audio features are more significant than visual features. Focussing on the detection of audio events for the identification of relevant scenes has proved to be right for this reason. Especially the classification of facial expression has turned out to be problematic, because in many cases the expression is not distinctive enough for a correct evaluation.