Exploring transfer learning techniques for named Entity recognition in Nnoisy user-generated text

Bogensperger, Johannes

doi:10.34726/hss.2021.86900

DC Field

Value

Language

dc.contributor.advisor

Hanbury, Allan

dc.contributor.author

Bogensperger, Johannes

dc.date.accessioned

2021-09-03T13:03:29Z

dc.date.issued

2021

dc.date.submitted

2021-08

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Bogensperger, J. (2021). <i>Exploring transfer learning techniques for named Entity recognition in Nnoisy user-generated text</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.86900</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2021.86900

dc.identifier.uri

http://hdl.handle.net/20.500.12708/18321

dc.description.abstract

Strafverfolgungsbehörden sind interessiert, aktuelle Trends und Entwicklungen in Darknet-Märkten zu erkennen. Das Extrahieren von Informationen für solche Märkte erfordert Wissen über die enthaltenen Entitäten, welches über Named Entity Recognition (NER) extrahiert werden kann. Moderne NER-Modelle werden mittels Supervised Learning optimiert, aber annotierte Datensätze für spezifische Anwendungsdomänen, wie Drogenerkennung in Darknetmärkten, sind kaum vorhanden. In dieser Arbeit haben wir einen NER-Datensatz erstellt, welcher sich auf Drogen in Darknet-Märkten konzentriert, und Ressourcen und Techniken zur Domänen- und Aufgabenanpassung evaluiert. Der Datensatz wurde mittels Crowd-Sourcing erstellt und ist etwa viermal so groß wie der einzige andere derzeit verfügbare NER-Datensatz für Darknet-Märkte. Im Zuge der Arbeit stellten wir fest, dass wir unsere NER-Vorhersageleistung durch Domänenanpassung verbessern konnten, indem wir unsere Sprachmodelle auf Darknet-Texten und reduzierten Versionen von Wikipedia-Texten über illegale Drogen feinabgestimmt haben. Unser Modell war in der Lage, Drogenentitäten mit einem F1-Score von bis zu 84.04 Punkten nach der CoNLL2003 NER-Evaluationsmetrik vorherzusagen.

dc.description.abstract

Modern law enforcement agencies strive to identify current trends and developments in Darknet markets. Extracting information from such markets requires knowledge about the contained entities, which can be extracted via Named Entity Recognition (NER). Modern NER models are trained via supervised learning, which requires an annotated dataset, but such datasets for specific application domains, e.g. drug detection in Darknet markets, are rarely available. In this work, we created a NER dataset focused on drugs in Darknet markets and evaluated resources and techniques for domain and task adaptation of our NER models. The dataset, with about 3.500 item listings, was created via crowd-Sourcing and refined via a manual review. It is approximately four times the size of the only other available NER dataset for Darknet markets, we were aware of at this time. We found that we were able to improve our NER prediction performance by domain adaptation via fine-tuning our language models on Darknet item descriptions and reduced versions of Wikipedia texts about illicit drugs. Our models were able to predict drug entities with a F1-Score of up to 84.04 points according to the CoNLL2003 NER evaluation metric.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

NER

dc.subject

Named Entity Recognition

dc.subject

Noisy User-generated Text

dc.subject

Darknet

dc.subject

Drug Detection

dc.subject

Crowd-Sourcing

dc.subject

Mechanical Turk

dc.subject

Appen

dc.title

Exploring transfer learning techniques for named Entity recognition in Nnoisy user-generated text

dc.title.alternative

Transfer Learning Methoden für Named Entity Recognition in Benuzter-generierten Texten

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2021.86900

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Johannes Bogensperger

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Recski, Gábor

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC16310767

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0002-7149-5843

tuw.assistant.orcid

0000-0001-5551-3100

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

TU Wien

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.96 MB)

In Copyright

Show simple item record

Page view(s)

533

checked on Nov 20, 2023

Download(s)

325

checked on Nov 20, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM