Staudt, D. (2020). Autoencoders as Kolmogorov complexity based distance function in zero-shot learning : wherein pictures of seahorses improve bird classification [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.78640
Klassifikationsprobleme leiden oftmals unter einem Mangel an annotierten Trainingsdaten. Dies führte zu der Entwicklung von Zero-shot Learning Modellen, welche mit Klassen trainiert werden für die ausreichend Trainingsdaten zur Verfügung stehen, um dann unbekannte Klassen anhand von Beschreibungen zu erkennen. Oftmals sind diese Beschreibungen in der Form von Attributsvektoren, die allerdings ebenfalls selten zur Verfügung stehen und aufwändig zu erstellen sind. Manche Ansätze nutzen daher stattdessen Beschreibungen in natürlicher Sprache. In dieser Arbeit wird eine neue Methode zum Vergleich von Daten aus verschiedenen Domänen, die Autoencoder Distance (AD), vorgestellt und getestet in einer Zero-shot Anwendung mit Bilddaten und Beschreibungen in natürlicher Sprache. Die Distanzfunkion basiert auf der Normalised Compression Distance von Cilibrasi und Vitányi, ein Verfahren bei dem verlustfreie Komprimierungsalgorithmen genutzt werden um gemeinsame Muster zu erkennen, in dem die Größe von kombinierten Eingangsdaten nach Komprimierung gemessen werden. Die Messung wird normalisiert mit den Größen der Eingabedaten wenn sie unabhängig voneinander komprimiert werden. Für die Methode die in dieser Arbeit vorgestellt wird ist statt eines verlustfreien Komprimierungsalgorithmus ein Autoencoder im Einsatz. Dieser wird zuerst darauf trainiert zusammengehörige Eingabedaten zu assoziieren, also Bilder und die Beschreibungen der Klassen denen sie angehören. Die Distanz zwischen Eingabedaten wird dann approximiert indem die mittlere quadratische Abweichung zwischen der Beschreibung und der korrespondierenden Ausgabe berechnet wird. Für die Normalisierung werden für alle Beschreibungen Durchschnitt und Standardabweichung dieser Abweichung für alle Bilder in einem festgelegten Set genutzt. Zur Klassifikationen eines Bildes werden alle Beschreibungen nach ihrem AD zu diesem Bild gereiht. Das Bild wird dann der Klasse die der erstgereihten Beschreibung entspricht zugeordnet. Evaluiert wird das Modell anhand einer Variation des Caltech-USCD Vogel-Datensets mit Klassenbeschreibungen von Reed et al. Des Weiteren werden Bildersets von diversen Tieren und Alltagsgenständen zur Normalisierung genutzt. Beim Klassifizieren mit 50 Beschreibungen die im Training nicht vorkamen konnte eine T1 Genauigkeit von 23,25% und eine T5 Genauigkeit von 57,14% erreicht werden, wobei Bilder von Seepferdchen zur Normalisierung genutzt wurden. Diese Werte sind geringer als Genauigkeiten die von anderen Werken auf den gleichen Daten erreicht werden konnte, aber durch die neuartige Methode werden viele bisher unerforschte Ansätze für zukünftige Entwicklungen eröffnet. Als ein Nebenziel wird zusätzlich gezeigt, dass die Ausgabe des Autoencoders für Explainability genutzt werden kann.
de
Many classification tasks suffer a lack of labelled data. This led to the development of zero-shot learning models, which are trained on classes with available data to recognise unknown classes from descriptions. Often this is done with descriptions in the form of attribute vectors, but those are again rarely available and expensive to produce. Some approaches therefore use descriptions in natural language instead. In this thesis a new method of comparing data from different domains, Autoencoder Distance (AD), is introduced and tested on a zero-shot application with image data and natural language descriptions. The distance function is based on the Normalised Compression Distance by Cilibrasi and Vitányi, a method that uses lossless compression algorithms to estimate shared patterns by measuring the size of combined inputs after compression, normalised by the compressed size of the inputs on their own. For the method introduced in this thesis an autoencoder is used instead of lossless compression. It is first trained to associate related inputs, i.e., images and the descriptions of their class. The distance between inputs is then approximated by calculating the mean squared error between the input description and its reconstruction. Normalisation for each description is done with the mean and standard deviation of this error over a shared set of images. For classification descriptions are ranked by their AD to a given image. The imaged is then placed in the class associated with the top ranked description. Evaluation is done on a variation of the Caltech-USCD bird dataset with descriptions provided by Reed et al. Further, image sets depicting various animals and commonplace items are used for normalisation. Classifying by ranking 50 descriptions not encountered in training, a T1 accuracy of 23.25% and a T5 accuracy of 57.14% could be achieved using pictures of sea horses for normalisation. This is lower than what was previously achieved on the same data, but the new method opens many novel avenues for future work. As a secondary objective it is also shown that the output of the autoencoder can be used for explainability.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers