Age classification; pornography detection; skin detection; contraband; images; illicit content
en
Abstract:
Diese Arbeit beschreibt einen Algorithmus zur Erkennung von Farbbildern mit anstößlichen, pornographischen oder gänzlich illegalen Inhalten. Dazu kann der Algorithmus eine Altersklassifizierung anhand von gesichtsbasierter Geometrie durchführen. Der Algorithmus erweitert den Algorithm for Nudity Detection von Rigan Ap-apid durch die Verwendung von Support Vector Machines und Methoden zur Eliminierung von Fehlalarmen. Die Nacktheits- und Pornographieerkennung basiert auf Hauterkennung.<br />Mithilfe von Hauterkennung können Hautflächen in Bildern lokalisiert werden. Basierend auf diesen Features und dem Gesamtanteil von Haut wird das Bild durch eine Support Vector Machine als verfänglich oder unverfänglich klassifiziert. Die Klassifizierung unterscheidet dabei nicht zwischen Nacktheit und Pornographie. Nacktheit und Pornographie werden in dieser Thesis als Synonyme verwendet.<br />Die analysierten Bilder werden mittels OpenCv nach Gesichtern durchsucht. Positionen von Augen, Mund, Nase und Kinn werden innerhalb von erkannten Gesichtern ermittelt. Eine Support Vector Machine klassifiziert die Gesichter anhand der Distanzen zwischen diesen Gesichtsmerkmalen in zwei Klassen (>18 und <18). Verschiedene Vorgehensweisen zur Hauterkennung (inklusive verschiedene Vor- und Nachbearbeitungsansätze) wurden am Compaq-Datensatz getestet.<br />Die ausgewählte Vorgehensweise erkennt Haut mit einer Recall-Rate von 82.3% bei einer False-Positive-Rate von 11.4%.<br /> Die Nacktheits- und Pornographieerkennung arbeitet mit einer Recall-Rate von 65.7%, einer Precision-Rate von 39.8% und einer False-Positive-Rate von 6.4% auf einem Datensatz bestehend aus 12524 unverfänglichen und 811 verfänglichen Bildern. Die erreichte Recall-Rate ist um absolute 6.8% höher, die Precision-Rate um absolute 8.9% höher und die False-Positive-Rate um absolute 2.2% geringer als die Klassifikationsraten der Referenzimplementierung des Algorithm for Nudity Detection auf diesem Datensatz.<br />Die Altersklassifizierung wurde an einem Datensatz bestehend aus 2957 Bildern von Gesichtern mit verschiedenen Skalierungsgrößen getestet. Die Bilder wurden aus dem FG-NET Aging-Datensatz Part A und von dem Labelled Faces in the Wild-Datensatz übernommen.<br />Die Altersklassifizierung funktioniert mit einer Recall-Rate von 47.7%, einer Precision-Rate von 71.3% bei einer False-Positive-Rate von 2.9%. Nur Bilder, auf denen ein Gesicht erkannt und die Position der Merkmale innerhalb des Gesichts extrahiert werden konnte, flossen in die Berechnung dieser Raten ein.<br />Basierend auf den erzielten Resultaten wurde eine GUI-basierte Software entwickelt, die Usern die Klassifizierung beliebiger Bilder ermöglicht.<br />
de
This thesis presents an algorithm for the detection of nudity or pornography in colour images combined with an age classification based on facial geometry. It upgrades the Algorithm for nudity detection proposed by Rigan Ap-apid by using support vector machines and targeted approaches for the elimination of false positives.<br />The nudity detection was based on skin detection, which was used to locate skin areas in images. Sizes, shapes and placements of detected skin regions were used as features. Based on these features and the total amount of skin in the image a support vector machine classified the image as non-pornographic or pornographic. The classification did not differentiate between nudity or pornography.<br />Nudity and pornography are used as synonyms in this thesis.<br />Analyzed images were scanned for faces by OpenCv. Positions of eyes, mouth, nose and chin were extracted from located faces. A support vector machine used the differences between these facial features for a prediction of the age in two classes (<18 or >18).<br />Several skin detection approaches were evaluated on the Compaq-dataset, including image processing before and after skin detection. The skin detection performed with 82.3% recall and with a false positive rate of 11.4%. Pornography detection performed with a recall of 65.7%, a precision of 39.8% and a false positive rate of 6.4% on a dataset containing 12524 non-pornographic images and 811 images showing pornography.<br />The presented approach yielded a 6.8% higher recall, a 8.9% higher precision and a 2.2% lower false positive rate respectively than our best-performing reference algorithm for nudity detection.<br />Age classification was tested on 2957 images showing faces at several image scaling sizes. These images were taken from FG-NET Aging-dataset part A and from the Labelled Faces in the Wild-dataset. Age classification delivered a recall of 47.7% and a precision of 71.3% with a false positive rate of 2.9%. Only images, from which the extraction of facial features was possible were included in these rates.<br />Based on the classification results a GUI-based software was developed, which enables users to execute pornography detection and age classification on eligible testing images.