Bogensperger, J. (2021). Exploring transfer learning techniques for named Entity recognition in Nnoisy user-generated text [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.86900
E194 - Institut für Information Systems Engineering
-
Date (published):
2021
-
Number of Pages:
73
-
Keywords:
NER; Named Entity Recognition; Noisy User-generated Text; Darknet; Drug Detection; Crowd-Sourcing; Mechanical Turk; Appen
en
Abstract:
Strafverfolgungsbehörden sind interessiert, aktuelle Trends und Entwicklungen in Darknet-Märkten zu erkennen. Das Extrahieren von Informationen für solche Märkte erfordert Wissen über die enthaltenen Entitäten, welches über Named Entity Recognition (NER) extrahiert werden kann. Moderne NER-Modelle werden mittels Supervised Learning optimiert, aber annotierte Datensätze für spezifische Anwendungsdomänen, wie Drogenerkennung in Darknetmärkten, sind kaum vorhanden. In dieser Arbeit haben wir einen NER-Datensatz erstellt, welcher sich auf Drogen in Darknet-Märkten konzentriert, und Ressourcen und Techniken zur Domänen- und Aufgabenanpassung evaluiert. Der Datensatz wurde mittels Crowd-Sourcing erstellt und ist etwa viermal so groß wie der einzige andere derzeit verfügbare NER-Datensatz für Darknet-Märkte. Im Zuge der Arbeit stellten wir fest, dass wir unsere NER-Vorhersageleistung durch Domänenanpassung verbessern konnten, indem wir unsere Sprachmodelle auf Darknet-Texten und reduzierten Versionen von Wikipedia-Texten über illegale Drogen feinabgestimmt haben. Unser Modell war in der Lage, Drogenentitäten mit einem F1-Score von bis zu 84.04 Punkten nach der CoNLL2003 NER-Evaluationsmetrik vorherzusagen.
de
Modern law enforcement agencies strive to identify current trends and developments in Darknet markets. Extracting information from such markets requires knowledge about the contained entities, which can be extracted via Named Entity Recognition (NER). Modern NER models are trained via supervised learning, which requires an annotated dataset, but such datasets for specific application domains, e.g. drug detection in Darknet markets, are rarely available. In this work, we created a NER dataset focused on drugs in Darknet markets and evaluated resources and techniques for domain and task adaptation of our NER models. The dataset, with about 3.500 item listings, was created via crowd-Sourcing and refined via a manual review. It is approximately four times the size of the only other available NER dataset for Darknet markets, we were aware of at this time. We found that we were able to improve our NER prediction performance by domain adaptation via fine-tuning our language models on Darknet item descriptions and reduced versions of Wikipedia texts about illicit drugs. Our models were able to predict drug entities with a F1-Score of up to 84.04 points according to the CoNLL2003 NER evaluation metric.