Advanced pattern matching in graph-based relation extraction : a methodical approach to improving XAI NLP systems

Piwonka, Philipp

doi:10.34726/hss.2024.120151

DC Field

Value

Language

dc.contributor.advisor

Recski, Gábor

dc.contributor.author

Piwonka, Philipp

dc.date.accessioned

2024-10-24T13:28:38Z

dc.date.issued

2024

dc.date.submitted

2024-09

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Piwonka, P. (2024). <i>Advanced pattern matching in graph-based relation extraction : a methodical approach to improving XAI NLP systems</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.120151</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2024.120151

dc.identifier.uri

http://hdl.handle.net/20.500.12708/203450

dc.description.abstract

Die Identifizierung und Klassifizierung von semantischen Beziehungen zwischen Entitäten eines gegebenen Textes ist ein fortbestehendes Problem der wissenschaftlichen Arbeit im Bereich des Natural Language Processings (NLP). In der Praxis sind es oft die transformer- oder neural-network-basierten Modelle, die weitgehend die besten Performance-Metriken aufweisen. Diese Black-Box-Modelle sind aber oft schwer bis unmöglich zu interpretieren, und damit für sprachwissenschaftliche Experimente wenig geeignet. Eine Alternative dazu ist POTATO, ein Framework, das sich auf den Bau von erklärbaren Text-Klassifizerungs-Modellen fokusiert. Es repräsentiert Text in mehreren etablierten syntaktischen und semantischen Graph-Systemen, und erlaubt es einem Menschen, durch einen iterativen Prozess graduell ein erklärbares Klassifizierungs-Modell aufzubauen, das transparente Entscheidungen auf Basis einer Pattern-Matching-Logik trifft. In dieser Diplomarbeit bauen wir einen solches Modell zur Klassifizierung des CrowdTruth Cause Datasets, einem binären Klassifizierungs-Problem für Entity Relations. Durch diesen Prozess wollen wir systematisch Verbesserungspotenzial an POTATO untersuchen und konkrete Verbesserungsvorschläge identifizieren und ausformulieren. In einem weiteren Schritt setzen wir eine unserer vorgeschlagenen Maßnahmen um: anstatt Entities durch Platzhalter-Text zu ersetzen, um sie so im konvertierten Graphen erkennen zu können, führen wir ein System ein, das Entity-Nodes in Graphen per Attribut markiert und dabei den Ursprungs-Text der Entity erhält. Wir demonstrieren, wie dieses neue Tagging-System zu einem besseren Klassifizierungs-Ergebnis führt, da es zum einen die Leistung existierender Regeln erhöht, und zum anderen die Erstellung ganz neuer Graph-Patterns ermöglicht, bei denen direkt die Inhalte von Entity-Nodes zur Klassifierung verwendet werden können. Dies führt zu einer Steigerung der F1-Test-Score, von 0,31 im Ursprungssystem zu 0,35 mit neuem Tagging-System und Graph-Patterns die den Inhalt von Entity-Nodes referenzieren.

dc.description.abstract

The identification and classification of relations between entities is an ongoing concern of research on natural language processing (NLP). In practice, transformer-based models provide state-of-the-art performance on such tasks, but they are borderline impossible to interpret and therefore ill-suited for linguistic research purposes. POTATO is an alternative that provides a framework for building explainable text classification models through an iterative process with a human agent, using established graph representation systems for natural language and a transparent pattern-matching logic. In this thesis we build a ruleset on the CrowdTruth Cause dataset, a binary entity relation classification problem, to systematically explore, identify and propose opportunities for improvement of the POTATO framework. In a further step, we take up the implementation of one such proposal: instead of marking entities by replacing their text with placeholder strings, we demonstrate an entity tagging mechanic that preserves the original text in entity nodes of syntactic and semantic graphs. We demonstrate how this new mechanic can be beneficial to the process of creating an explainable ruleset, as it enhances the performance of existing rules, and enables the building of entirely new types of patterns that specifically target entity node labels for classification. This leads to an overall improvement in performance metrics on the classification task, from a 0.31 F1 test metric on the original classifier, to an F1 of 0.35 when using the new tagging system and entity-content-aware rules.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Natural Language Processing

dc.subject

Text Classification

dc.subject

Relation Extraction

dc.subject

Entity Tagging

dc.subject

Explainable Ruleset

dc.subject

CrowdTruth Cause Dataset

dc.title

Advanced pattern matching in graph-based relation extraction : a methodical approach to improving XAI NLP systems

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2024.120151

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Philipp Piwonka

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17339819

dc.description.numberOfPages

116

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0001-5551-3100

item.fulltext

with Fulltext

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.cerifentitytype

Publications

item.grantfulltext

open

item.languageiso639-1

item.openaccessfulltext

Open Access

item.openairetype

master thesis

Appears in Collections:

Thesis

Piwonka Philipp - 2024 - Advanced pattern matching in graph-based relation...pdf

Adobe PDF

(2.06 MB)

Show simple item record

Page view(s)

213

checked on Oct 24, 2024

Download(s)

178

checked on Oct 24, 2024

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM