<div class="csl-bib-body">
<div class="csl-entry">Häcker, B. (2021). <i>Efficient Annotation of complex documents through active learning for retraining a machine learning classifier</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.77703</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2021.77703
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/18402
-
dc.description.abstract
Überwachtes Maschinelles Lernen benötigt Training mit gelabelten Daten, welche teuersind, wenn Menschen sie annotieren müssen. Aktives Lernen zielt darauf ab, den Annotationsaufwand zu reduzieren indem es geeignete Trainingssamples auswählt welche zu einer höheren Performance des ML-Algorithmus führen als zufällig gewählte Traininsdaten.Die Aufgabe für die wir Aktives Lernen untersuchen möchten ist die Klassifikation von Dokumenten. Wir sehen uns mit einer Situation konfrontiert in der wir keinen Zugang zuden ungelabelten Daten und keinen Zugang zu dem ML-Modell haben. Die Auswahl der Samples basiert alleinig auf den Vorhesagevektoren welche von dem ML-Modell erzeugt werden. Wir experimentieren mit Szenarien in welchen wir Zugang zu Daten und Modellhaben, um zu sehen ob unsere Methoden besser performen in solch einem Fall. Die Aktives Lernen Methoden, die wir verwenden, bauen auf verschiedenen Annahmen auf und können in drei Familien eingeteilt werden: Individuelle Score Berechnungen, Distanzbasierte Teilmengen Auswahl und Methoden zur Vorhersage der Modellverbesserung. Um die Aktives Lernen Methoden zu evaluieren, führen wir ein neues Maß ein und benutzenes, um die verschiedenen Methoden zu vergleichen. Unsere Experimente zeigen einen klaren Vorteil des Einsatzes von Aktives Lernen Methoden gegenüber keinem Einsatz von Aktivem Lernen.
de
dc.description.abstract
Supervised machine learning algorithms require training on labeled training data which is expensive to obtain when the labels have to by annotated by humans. Active Learning aims to reduce the annotation effort by selecting suitable training samples which yielda higher performance of the machine learning algorithm then random chosen trainingsamples. The task we want to explore Active Learning methods for is the classification of documents. We face a situation where we do not have access to the unlabeled data and donot have access to the machine learning model. The selection of samples happens solely on the prediction vector made by the machine learning model for individual samples.We experiment with scenarios where we have access to data and model to see if ourmethods perform better in such a case. The Active Learning methods which we employare built on different assumptions and can be categorized into three families: individual score calculations, distance based subset selections and model improvement prediction methods. To evaluate Active Learning methods we introduce a novel measure and use itto compare different methods. Our experiments show a clear advantage of using Active Learning methods over no Active Learning.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Document classification
en
dc.subject
black box scenario
en
dc.subject
Neural Networks as black boxes
en
dc.subject
Active learning for Transfer Learning
en
dc.subject
distance matrices for Active Learning
en
dc.subject
Uncertainty based training sample selection
en
dc.subject
diversity based training sample selection
en
dc.subject
reinforcement learning for active learning
en
dc.subject
relative improvement score
en
dc.subject
inception network
en
dc.title
Efficient Annotation of complex documents through active learning for retraining a machine learning classifier
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2021.77703
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Benedikt Häcker
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Fink, Tobias
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16315883
-
dc.description.numberOfPages
62
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-7149-5843
-
item.cerifentitytype
Publications
-
item.openaccessfulltext
Open Access
-
item.fulltext
with Fulltext
-
item.languageiso639-1
en
-
item.grantfulltext
open
-
item.openairetype
master thesis
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.mimetype
application/pdf
-
crisitem.author.dept
E194-04 - Forschungsbereich E-Commerce
-
crisitem.author.parentorg
E194 - Institut für Information Systems Engineering