Person classification with convolutional neural networks

Sperl, Georg

doi:10.34726/hss.2016.33656

DC Field

Value

Language

dc.contributor.advisor

Sablatnig, Robert

dc.contributor.author

Sperl, Georg

dc.date.accessioned

2020-06-29T11:01:48Z

dc.date.issued

2016

dc.date.submitted

2016-04

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Sperl, G. (2016). <i>Person classification with convolutional neural networks</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.33656</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2016.33656

dc.identifier.uri

http://hdl.handle.net/20.500.12708/6032

dc.description

Zusammenfassung in deutscher Sprache

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Großangelegte Objekterkennungswettbewerbe wie zum Beispiel das ImageNet Large Scale Visual Object Recognition Challenge oder Microsoft Common Objects in Context haben gezeigt, dass faltende neuronale Netzwerke den Stand der Technik der Leistung in Computer Vision Aufgaben wie Objektdetektion und Bildklassifikation erreichen. Faltende neuronale Netzwerke profitieren von Datensätzen aus hunderttausenden Bildern, die mehr Intra-Klassen-Variabilitäten abdecken und helfen, robuste und invariante Merkmale zu lernen. Allerdings sind dies Datensätze für allgemeine Objekterkennung und es existiert kein Datensatz für Personenerkennung, der ähnliche Ausmaße hat. Daher werden Daten von über 30 Datensätzen für Personendetektion, Personenklassifikation, Personensegmentation und Personenverfolgung gesammelt, um einen Topf von Datenquellen für Personenerkennung zu formen. Es wird eine Methode für das Extrahieren von anwendungsspezifischen Daten aus diesem Topf und das Trainieren von einem faltenden neuronalen Netzwerk für binäre Personenklassifikation vorgeschlagen. Weiters werden die Leistungsverbesserungen durch Subklassenannotation der Nicht-Personen- Klasse analysiert und eine Fehlerquote von 2.82% wird erreicht. Resultate zeigen, dass die Verwendung von unserem Personenerkennungsdatensatz als Vor-Trainings-Datensatz für Personenklassifikationsaufgaben, welche Trainings-Datensätze von nur wenigen tausenden Bildern haben, zu einer Genauigkeitssteigerung von über 8% führt, was in Folge zu einer Gesamtpräzision von über 99% führt. Die Qualität unseres Datensatzes wird weiters durch zusätzliche Evaluierung nachgewiesen. Darüber hinaus betonen die Ergebnisse die Komplexität der Auswahl einer geeigneten Architektur eines faltenden neuronalen Netzwerks und bezeugen die erhöhte Robustheit beim Training durch die Verwendung von Subklassenannotationen bezüglich Initialisierung und Lösungsalgorithmen.

dc.description.abstract

Large-scale object recognition challenges such as the ImageNet Large Scale Visual Object Recognition Challenge or the Microsoft Common Objects in Context challenge have shown that convolutional neural networks achieve state-of-the-art performance on computer vision problems like object detection and image classification. Convolutional neural networks benefit from datasets of hundreds of thousands of images, which cover more intraclass variabilities and aid in learning robust and invariant features. However, these datasets are designed for general object recognition and no dataset of similar dimensions exist for person recognition. Therefore, data is collected from over 30 datasets for person detection, classification, segmentation and tracking to form a pool of data sources for person recognition. A method of extracting application-specific data from this pool and training a convolutional neural network for binary person classification is proposed. Additionally, performance improvements of subclass labeling are analyzed for the nonperson class and an error rate of 2.82% is achieved. Results demonstrate that using our person recognition dataset as a pre-training set for person classification tasks with training sets of only up to a few thousand images leads to an increase in accuracy of over 8% to a total accuracy of over 99%. The quality of our dataset is demonstrated by additional evaluation. Furthermore, results emphasize the complexity of convolutional neural network architecture choice and indicate increased robustness in training with subclass labeling with regards to initialization and solver algorithms.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Person

dc.subject

Pedestrian

dc.subject

Classification

dc.subject

Deep Learning

dc.subject

Machine Learning

dc.subject

Neural Networks

dc.subject

Convolutional Neural Networks

dc.title

Person classification with convolutional neural networks

dc.title.alternative

Personen Klassifikation mit konvolutionellen Neuronalen Netzwerken

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2016.33656

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Georg Sperl

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E183 - Institut für Rechnergestützte Automation

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC13073763

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-1114

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0003-4195-1593

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

TU Wien

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(9.7 MB)

In Copyright

Show simple item record

Page view(s)

335

checked on Nov 19, 2023

Download(s)

127

checked on Nov 19, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM