Obereder, C. (2024). Aligning sentences to their formal meaning representation in the context of discourse representation structure parsing [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.120192
Discourse Representation Structures (DRS) sind eine Möglichkeit, einen Satz in natürlicher Sprache als eine formelle Bedeutungsrepräsentation darzustellen. Für maschinelles Lernen können DRS als eine eindimensionale Liste an Klauseln dargestellt werden. In den vergangenen Jahren wurden Systeme zur automatisierten Erstellung von DRS, aus Sätzen in natürlicher Sprache, basierend auf neuronalen Netzen entwickelt. Diese Systeme werden auf Daten aus der Parallel Meaning Bank trainiert und erzielen hohe Performanz. Die Daten aus der Parallel Meaning Bank bestehen jedoch nicht nur aus Sätzen und ihren zugehörigen DRS, sondern beinhalten auch eine Zuweisung zwischen den beiden. Für jede Klausel im DRS gibt es ein Wort im Satz, welches für diese Klausel am relevantesten ist. Moderne neuronale Systeme, die automatisiert DRS generieren, ignorieren jedoch diese Zuweisung, welche in den Trainingsdaten vorhanden ist, und produzieren ausschließlich DRS. Eine solche Zuweisung wäre jedoch sehr nützlich, da sie es ermöglicht, einzelnen Wörter die Information, welche in DRS-Klauseln vorhanden ist, zuzuweisen. Diese Arbeit beschäftigt sich damit, ein bereits existieren neuronales sequence-to-sequence System zur Erstellung von DRS zu erweitern, sodass es auch die besprochene Zuweisung generiert, ohne die Architektur des bestehenden Modells stark zu verändern. Zu diesem Zwecke wird mit einem Ansatz experimentiert, welcher die beschriebene Zuweisung aus dem Aufmerksamkeitsmechanismus eines sequence-to-sequence Systems ausliest, sowie einem Ansatz, welcher die Zuweisung als Teil der zu generierenden Sequenz in einem solchen System betrachtet. Außerdem wird eine Kombination der beiden genannten Systeme, welche die beste Performanz unter den beschriebenen Ansätzen zeigt, entwickelt. Schlus- sendlich werden noch DRS mit fehlerhafter Zuweisung, welche von genannten Systemen produziert wurden, manuell inspiziert, um Einblicke darin zu erlangen, welche Arten von Fehlern produziert werden und wie die beschriebenen Systeme noch verbessert werden können.
de
Discourse Representation Structures (DRS) are a way of formally representing the meaning of a sentence. DRS Parsing is the task of automatically generating DRS from a given sentence, which is often done using machine learning techniques. Current state-of-the-art approaches employ sequence-to-sequence models, where the input sequence is the natural language sentence and the output sequence is DRS. For that purpose, DRS can be represented in a machine-readable way, as a flat list of clauses. In recent years, neural methods for parsing DRS using data from the Parallel Meaning Bank have shown promising performance. However, the data in this corpus consists not only of sentences and their corresponding DRS, but also an alignment between the two, describing which tokens of the input sentence are most relevant for a given clause in the DRS. State-of-the-art neural DRS parsers do not include this alignment in their output, instead only producing pure DRS. However, using DRS in downstream NLP applications such as Named Entity Recognition (NER), Relation Extraction (RE), or Open Information Extraction (OIE) requires that DRS clauses produced by a parser be aligned with words of the input sentence. This work expands an existing neural sequence-to-sequence DRS parser so that it is capable of producing alignment alongside DRS, while making minimal changes to the underlying architecture. For the purpose of producing this alignment, an approach based on the attention-scores generated by the cross-attention-mechanism in an Encoder-Decoder model and an End-to-End approach are considered, with a combination of these approaches ultimately achieving the best overall performance in terms of alignment accuracy. Furthermore, a qualitative analysis of alignment errors produced by these approaches is provided, giving insights into the nature of such errors.