Häcker, B. (2021). Efficient Annotation of complex documents through active learning for retraining a machine learning classifier [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.77703
E194 - Institut für Information Systems Engineering
-
Date (published):
2021
-
Number of Pages:
62
-
Keywords:
Document classification; black box scenario; Neural Networks as black boxes; Active learning for Transfer Learning; distance matrices for Active Learning; Uncertainty based training sample selection; diversity based training sample selection; reinforcement learning for active learning; relative improvement score; inception network
en
Abstract:
Überwachtes Maschinelles Lernen benötigt Training mit gelabelten Daten, welche teuersind, wenn Menschen sie annotieren müssen. Aktives Lernen zielt darauf ab, den Annotationsaufwand zu reduzieren indem es geeignete Trainingssamples auswählt welche zu einer höheren Performance des ML-Algorithmus führen als zufällig gewählte Traininsdaten.Die Aufgabe für die wir Aktives Lernen untersuchen möchten ist die Klassifikation von Dokumenten. Wir sehen uns mit einer Situation konfrontiert in der wir keinen Zugang zuden ungelabelten Daten und keinen Zugang zu dem ML-Modell haben. Die Auswahl der Samples basiert alleinig auf den Vorhesagevektoren welche von dem ML-Modell erzeugt werden. Wir experimentieren mit Szenarien in welchen wir Zugang zu Daten und Modellhaben, um zu sehen ob unsere Methoden besser performen in solch einem Fall. Die Aktives Lernen Methoden, die wir verwenden, bauen auf verschiedenen Annahmen auf und können in drei Familien eingeteilt werden: Individuelle Score Berechnungen, Distanzbasierte Teilmengen Auswahl und Methoden zur Vorhersage der Modellverbesserung. Um die Aktives Lernen Methoden zu evaluieren, führen wir ein neues Maß ein und benutzenes, um die verschiedenen Methoden zu vergleichen. Unsere Experimente zeigen einen klaren Vorteil des Einsatzes von Aktives Lernen Methoden gegenüber keinem Einsatz von Aktivem Lernen.
de
Supervised machine learning algorithms require training on labeled training data which is expensive to obtain when the labels have to by annotated by humans. Active Learning aims to reduce the annotation effort by selecting suitable training samples which yielda higher performance of the machine learning algorithm then random chosen trainingsamples. The task we want to explore Active Learning methods for is the classification of documents. We face a situation where we do not have access to the unlabeled data and donot have access to the machine learning model. The selection of samples happens solely on the prediction vector made by the machine learning model for individual samples.We experiment with scenarios where we have access to data and model to see if ourmethods perform better in such a case. The Active Learning methods which we employare built on different assumptions and can be categorized into three families: individual score calculations, distance based subset selections and model improvement prediction methods. To evaluate Active Learning methods we introduce a novel measure and use itto compare different methods. Our experiments show a clear advantage of using Active Learning methods over no Active Learning.