<div class="csl-bib-body">
<div class="csl-entry">Piwonka, P. (2024). <i>Advanced pattern matching in graph-based relation extraction</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.120151</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2024.120151
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/203450
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Die Identifizierung und Klassifizierung von semantischen Beziehungen zwischen Entitäten eines gegebenen Textes ist ein fortbestehendes Problem der wissenschaftlichen Arbeit im Bereich des Natural Language Processings (NLP). In der Praxis sind es oft die transformer- oder neural-network-basierten Modelle, die weitgehend die besten Performance-Metriken aufweisen. Diese Black-Box-Modelle sind aber oft schwer bis unmöglich zu interpretieren, und damit für sprachwissenschaftliche Experimente wenig geeignet. Eine Alternative dazu ist POTATO, ein Framework, das sich auf den Bau von erklärbaren Text-Klassifizerungs-Modellen fokusiert. Es repräsentiert Text in mehreren etablierten syntaktischen und semantischen Graph-Systemen, und erlaubt es einem Menschen, durch einen iterativen Prozess graduell ein erklärbares Klassifizierungs-Modell aufzubauen, das transparente Entscheidungen auf Basis einer Pattern-Matching-Logik trifft. In dieser Diplomarbeit bauen wir einen solches Modell zur Klassifizierung des CrowdTruth Cause Datasets, einem binären Klassifizierungs-Problem für Entity Relations. Durch diesen Prozess wollen wir systematisch Verbesserungspotenzial an POTATO untersuchen und konkrete Verbesserungsvorschläge identifizieren und ausformulieren. In einem weiteren Schritt setzen wir eine unserer vorgeschlagenen Maßnahmen um: anstatt Entities durch Platzhalter-Text zu ersetzen, um sie so im konvertierten Graphen erkennen zu können, führen wir ein System ein, das Entity-Nodes in Graphen per Attribut markiert und dabei den Ursprungs-Text der Entity erhält. Wir demonstrieren, wie dieses neue Tagging-System zu einem besseren Klassifizierungs-Ergebnis führt, da es zum einen die Leistung existierender Regeln erhöht, und zum anderen die Erstellung ganz neuer Graph-Patterns ermöglicht, bei denen direkt die Inhalte von Entity-Nodes zur Klassifierung verwendet werden können. Dies führt zu einer Steigerung der F1-Test-Score, von 0,31 im Ursprungssystem zu 0,35 mit neuem Tagging-System und Graph-Patterns die den Inhalt von Entity-Nodes referenzieren.
de
dc.description.abstract
The identification and classification of relations between entities is an ongoing concern of research on natural language processing (NLP). In practice, transformer-based models provide state-of-the-art performance on such tasks, but they are borderline impossible to interpret and therefore ill-suited for linguistic research purposes. POTATO is an alternative that provides a framework for building explainable text classification models through an iterative process with a human agent, using established graph representation systems for natural language and a transparent pattern-matching logic. In this thesis we build a ruleset on the CrowdTruth Cause dataset, a binary entity relation classification problem, to systematically explore, identify and propose opportunities for improvement of the POTATO framework. In a further step, we take up the implementation of one such proposal: instead of marking entities by replacing their text with placeholder strings, we demonstrate an entity tagging mechanic that preserves the original text in entity nodes of syntactic and semantic graphs. We demonstrate how this new mechanic can be beneficial to the process of creating an explainable ruleset, as it enhances the performance of existing rules, and enables the building of entirely new types of patterns that specifically target entity node labels for classification. This leads to an overall improvement in performance metrics on the classification task, from a 0.31 F1 test metric on the original classifier, to an F1 of 0.35 when using the new tagging system and entity-content-aware rules.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Serverless
en
dc.subject
Actor
en
dc.subject
WebAssembly
en
dc.subject
Wasm
en
dc.subject
Function-as-a-Service
en
dc.subject
Rust
en
dc.subject
Cloud
en
dc.subject
Distributed-System
en
dc.subject
Distributed-Middleware
en
dc.subject
SIWA
en
dc.title
Advanced pattern matching in graph-based relation extraction
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2024.120151
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Philipp Piwonka
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering