Haushofer, S. (2021). Open set classification in the domain of license plate type images using deep learning [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.79041
E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2021
-
Number of Pages:
97
-
Keywords:
Deep Learning; Open Set Klassifikation; Open Set Erkennung; Eingebetteter Raum; Saliency Map; Neuronales Netzwerk; Nummerntafel; Nummerntafeltyp
de
Deep Learning; Open Set Classification; Open Set Recognition; Embedding Space; Saliency Map; Neural Network; License Plate; License Plate Type
en
Abstract:
Bei der Erkennung des Nummerntafeltyps handelt es sich um ein Klassifizierungsproblem auf einer offenen Menge von Klassen. Das Ziel ist zwischen verschiedenen Hintergründen von Nummerntafeln, welche an Fahrzeugen angebracht sind, zu unterscheiden. Wenn der Nummerntafeltyp bekannt ist, lässt sich damit auf den Herkunftsstaat, in dem das Kennzeichen registriert ist, rückschließen. Moderne Techniken, die Klassifikation auf einer offenen Menge lösen, nutzen Deep Learning, um einen eingebetteten Raum als Zwischenprodukt zu trainieren. In diesem wird anschließend die Klassifikation durchgeführt. Der eingebettete Raum ist im Wesentlichen das Ergebnis einer nichtlinearen Merkmalsreduktion. In ihm ist jede Klasse durch einen kompakten Cluster repräsentiert, der von den anderen Klassen trennbar ist. Der eingebettete Raum wird nur mit einer Teilmenge aller bekannten Klassen trainiert. Die übrigen bekannten Klassen werden integriert, ohne das Neuronale Netzwerk neu zu trainieren. Instanzen von Klassen, die für das gesamte System unbekannt sind, werden mittels Thresholding identifiziert. Ein wesentlicher Beitrag dieser Arbeit ist eine Analyse der Klassenverteilungen im eingebetteten Raum, welche von bisherigen Arbeiten weitgehend außer Acht gelassen wurde. Für diesen Zweck werden einige neue Bewertungskriterien vorgestellt, welche es ermöglichen die Qualität verschiedener gelernter Räume zu vergleichen. Die identifizierenden Zeichen einer Nummerntafel sind eine Herausforderung für die maschinelle Erkennung des Nummerntafeltyps, da Neuronale Netzwerke dazu neigen sie als Merkmale zu lernen. Um dieses Problem zu lösen, werden die identifizierenden Zeichen während des Trainings per Zufall ausmaskiert. Außerdem wird mit Hilfe sogenannter Saliency Maps untersucht, auf welche Merkmale das trainierte Neuronale Netzwerk besonders sensibel reagiert. Ein bestimmter Klassifikator, welcher häufig in eingebetteten Räumen verwendet wird, nimmt Verteilungen mit homogener Varianz als Vorbedingung an. Die Analyse der Verteilungen im eingebetteten Raum zeigt, dass diese Annahme für den verwendeten Nummerntafeltyp Datensatz nicht erfüllt ist. Die Experimente zeigen, dass die Klassenverteilungen auch einen signifikanten Unterschied zu multivariaten Normalverteilungen, welche die Form von Hyperellipsen besitzen, aufweisen. Die Saliency Maps visualisieren, dass das Neuronale Netzwerk für den Großteil der Nummerntafeltypen vernünftige Merkmale lernt. Allerdings werden für wenige Klassen primitive Merkmale ausgewählt, welche von einem Menschen nicht in Betracht gezogen werden würden.
de
License plate type recognition is a classification problem on an open set of classes. Its purpose is to distinguish between different backgrounds of license plates mounted on vehicles. Knowing the license plate type allows to identify the country in which the respective license plate is registered. Modern approaches which solve open set classification problems make use of deep learning to train an intermediate embedding space in which a subsequent classification is performed. This embedding space essentially represents the result of a non-linear feature reduction. Within it, each class is represented by a compact cluster which is separable from the other classes. The embedding space is only trained with a subset of the known classes. The remaining known classes are incorporated without retraining the network. Instances of classes which are unknown to the system are identified using thresholding. The main contribution of this work is the analysis of the class distributions within the embedding space, which has been largely neglected by previous work. For this purpose, new benchmarks which allow a qualitative comparison between different learned embedding spaces are introduced. The identifying characters of a license plate are challenging for license plate type recognition because the model tends towards learning specific characters as features. To overcome this problem, randomized masking of the characters during training is proposed. Furthermore, investigations about which features the trained network is sensitive to are carried out using gradient-based saliency map techniques. A commonly used embedding space classifier assumes class distributions of homogeneous variance as a prior under the open set restriction. The analysis of the class distributions in the embedding space shows that this prior is not met for the used license plate type dataset. The experiments reveal that the class distributions even show a significant difference from multivariate Gaussians, which are capable of modeling more complex distributions in the shape of hyper-ellipsoids. The computed saliency maps visualize that the model learns reasonable features for most of the license plate types. However, for a few of them, primitive features which a human would not consider for classification are exploited.