<div class="csl-bib-body">
<div class="csl-entry">Bogensperger, J. (2021). <i>Exploring transfer learning techniques for named Entity recognition in Nnoisy user-generated text</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.86900</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2021.86900
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/18321
-
dc.description.abstract
Strafverfolgungsbehörden sind interessiert, aktuelle Trends und Entwicklungen in Darknet-Märkten zu erkennen. Das Extrahieren von Informationen für solche Märkte erfordert Wissen über die enthaltenen Entitäten, welches über Named Entity Recognition (NER) extrahiert werden kann. Moderne NER-Modelle werden mittels Supervised Learning optimiert, aber annotierte Datensätze für spezifische Anwendungsdomänen, wie Drogenerkennung in Darknetmärkten, sind kaum vorhanden. In dieser Arbeit haben wir einen NER-Datensatz erstellt, welcher sich auf Drogen in Darknet-Märkten konzentriert, und Ressourcen und Techniken zur Domänen- und Aufgabenanpassung evaluiert. Der Datensatz wurde mittels Crowd-Sourcing erstellt und ist etwa viermal so groß wie der einzige andere derzeit verfügbare NER-Datensatz für Darknet-Märkte. Im Zuge der Arbeit stellten wir fest, dass wir unsere NER-Vorhersageleistung durch Domänenanpassung verbessern konnten, indem wir unsere Sprachmodelle auf Darknet-Texten und reduzierten Versionen von Wikipedia-Texten über illegale Drogen feinabgestimmt haben. Unser Modell war in der Lage, Drogenentitäten mit einem F1-Score von bis zu 84.04 Punkten nach der CoNLL2003 NER-Evaluationsmetrik vorherzusagen.
de
dc.description.abstract
Modern law enforcement agencies strive to identify current trends and developments in Darknet markets. Extracting information from such markets requires knowledge about the contained entities, which can be extracted via Named Entity Recognition (NER). Modern NER models are trained via supervised learning, which requires an annotated dataset, but such datasets for specific application domains, e.g. drug detection in Darknet markets, are rarely available. In this work, we created a NER dataset focused on drugs in Darknet markets and evaluated resources and techniques for domain and task adaptation of our NER models. The dataset, with about 3.500 item listings, was created via crowd-Sourcing and refined via a manual review. It is approximately four times the size of the only other available NER dataset for Darknet markets, we were aware of at this time. We found that we were able to improve our NER prediction performance by domain adaptation via fine-tuning our language models on Darknet item descriptions and reduced versions of Wikipedia texts about illicit drugs. Our models were able to predict drug entities with a F1-Score of up to 84.04 points according to the CoNLL2003 NER evaluation metric.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
NER
en
dc.subject
Named Entity Recognition
en
dc.subject
Noisy User-generated Text
en
dc.subject
Darknet
en
dc.subject
Drug Detection
en
dc.subject
Crowd-Sourcing
en
dc.subject
Mechanical Turk
en
dc.subject
Appen
en
dc.title
Exploring transfer learning techniques for named Entity recognition in Nnoisy user-generated text
en
dc.title.alternative
Transfer Learning Methoden für Named Entity Recognition in Benuzter-generierten Texten
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2021.86900
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Johannes Bogensperger
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Recski, Gábor
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering