Schleser, T. (2009). Face detection for meta data generation and sample implementation of a cascaded classifier [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/186576
face detection; classification; cascade; object detection; computer vision; archiving; meta data
en
Abstract:
Bei der Gesichtserkennung wird versucht, eine unbekannte Anzahl an Gesichtern in einem Bild oder Video zu erkennen. Dabei geht es darum, möglichst alle Gesichter zu erkennen und gleichzeitig eine geringe Fehlerrate aufrechtzuerhalten. Weiters soll die Zeit für die Analyse eines Frames minimiert werden.<br />In dieser Arbeit wird Gesichtserkennung im Kontext historischer Dokumentarfilme untersucht. Das Material sind aus den 1920er Jahren stammende Filme des sowjetischen Regisseurs Dziga Vertov. Das (digital) verfügbare Material weist zum Teil schwere Mängel wie beispielsweise Flimmern, Kratzer, Schmutz, schlechte Beleuchtung und Kontrast auf.<br />Außerdem handelt es sich um schwarz-weiß Filme ohne Ton.<br />Ausgehend von einer Literaturrecherche über die verschiedenen Ansätze zur Gesichtserkennung wurde eine Methode von Viola und Jones als Basis dieser Arbeit ausgewählt. Der Ansatz verwendet eine Kaskade von Klassifikatoren um Gesichter von nicht-Gesichtern zu unterscheiden. Die einzelnen Stufen dieser Kaskade bestehen aus einer Hierarchie von Klassifikatoren, welche aus einfachen, Haar-ähnlichen Features erstellt werden. Der Vorteil der Kaskade ist, dass für die einzelnen Stufen nur eine mittelmäßig gute Fehlerrate erreicht werden muss, da sich die individuellen Raten zur Gesamtfehlerrate aufmultiplizieren.<br />Diese Arbeit beschreibt, wie die Methode für die Gesichtserkennung aufgebaut ist, wie sie an das alte Material angepasst wird und wie die konkrete Implementierung aussieht. Außerdem werden einige Nachverarbeitungsschritte vorgeschlagen, welche die Erkennungs- und Fehlerrate verbessern. Es werden detailierte Ergebnisse für einige Beispielszenen aus den Dokumentationen präsentiert und der Rechenaufwand für Training und Erkennung analysiert.<br />Diese Diplomarbeit baut auf meiner früheren Arbeit mit dem Title "Face detection in historic documentaries with a cascaded classifier" auf und stellt eine Erweiterung dieser originalen Arbeit dar.<br />
de
Face detection aims at detecting and localizing an unknown number of faces in a still image or video frame. The challenges are to detect all faces while keeping the false positive rate small and to minimize the detection time per frame.<br />We study face detection in the context of historic documentaries. The source material for this work are films of the Soviet film maker Dziga Vertov that date back to the 1920's. The digitally available material bears major image deficiencies including flicker, scratches, dirt, bad lighting and contrast and visible frame lines. Naturally, the material is monochromatic and silent.<br />Based on a literature survey on different approaches for face detection, we select a method introduced by Viola and Jones for this investigation.<br />Their approach employs a cascaded classifier, i.e. a sequence of nodes, that distinguishes faces from non-faces. These nodes are organized as a hierarchy of classifiers that are built from simple, Haar-like features.<br />The main advantage of using a cascade is that only a moderate false-positive rate is needed for individual nodes as the individual rates multiply up to the overall false-positive rate.<br />We describe how the detection framework is set up for and adapted to the historic material and how it is implemented. Additionally, we suggest several post-processing steps to ameliorate the false-positive rate.<br />Finally, we provide detailed results for several sample scenes from the documentaries, and analyze the performance of the training and detection stages.<br />This thesis is based on my former work with the title "Face detection in historic documentaries with a cascaded classifier" and constitutes an extension of that work.