Sperl, G. (2016). Person classification with convolutional neural networks [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.33656
Großangelegte Objekterkennungswettbewerbe wie zum Beispiel das ImageNet Large Scale Visual Object Recognition Challenge oder Microsoft Common Objects in Context haben gezeigt, dass faltende neuronale Netzwerke den Stand der Technik der Leistung in Computer Vision Aufgaben wie Objektdetektion und Bildklassifikation erreichen. Faltende neuronale Netzwerke profitieren von Datensätzen aus hunderttausenden Bildern, die mehr Intra-Klassen-Variabilitäten abdecken und helfen, robuste und invariante Merkmale zu lernen. Allerdings sind dies Datensätze für allgemeine Objekterkennung und es existiert kein Datensatz für Personenerkennung, der ähnliche Ausmaße hat. Daher werden Daten von über 30 Datensätzen für Personendetektion, Personenklassifikation, Personensegmentation und Personenverfolgung gesammelt, um einen Topf von Datenquellen für Personenerkennung zu formen. Es wird eine Methode für das Extrahieren von anwendungsspezifischen Daten aus diesem Topf und das Trainieren von einem faltenden neuronalen Netzwerk für binäre Personenklassifikation vorgeschlagen. Weiters werden die Leistungsverbesserungen durch Subklassenannotation der Nicht-Personen- Klasse analysiert und eine Fehlerquote von 2.82% wird erreicht. Resultate zeigen, dass die Verwendung von unserem Personenerkennungsdatensatz als Vor-Trainings-Datensatz für Personenklassifikationsaufgaben, welche Trainings-Datensätze von nur wenigen tausenden Bildern haben, zu einer Genauigkeitssteigerung von über 8% führt, was in Folge zu einer Gesamtpräzision von über 99% führt. Die Qualität unseres Datensatzes wird weiters durch zusätzliche Evaluierung nachgewiesen. Darüber hinaus betonen die Ergebnisse die Komplexität der Auswahl einer geeigneten Architektur eines faltenden neuronalen Netzwerks und bezeugen die erhöhte Robustheit beim Training durch die Verwendung von Subklassenannotationen bezüglich Initialisierung und Lösungsalgorithmen.
de
Large-scale object recognition challenges such as the ImageNet Large Scale Visual Object Recognition Challenge or the Microsoft Common Objects in Context challenge have shown that convolutional neural networks achieve state-of-the-art performance on computer vision problems like object detection and image classification. Convolutional neural networks benefit from datasets of hundreds of thousands of images, which cover more intraclass variabilities and aid in learning robust and invariant features. However, these datasets are designed for general object recognition and no dataset of similar dimensions exist for person recognition. Therefore, data is collected from over 30 datasets for person detection, classification, segmentation and tracking to form a pool of data sources for person recognition. A method of extracting application-specific data from this pool and training a convolutional neural network for binary person classification is proposed. Additionally, performance improvements of subclass labeling are analyzed for the nonperson class and an error rate of 2.82% is achieved. Results demonstrate that using our person recognition dataset as a pre-training set for person classification tasks with training sets of only up to a few thousand images leads to an increase in accuracy of over 8% to a total accuracy of over 99%. The quality of our dataset is demonstrated by additional evaluation. Furthermore, results emphasize the complexity of convolutional neural network architecture choice and indicate increased robustness in training with subclass labeling with regards to initialization and solver algorithms.
en
Additional information:
Zusammenfassung in deutscher Sprache Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers