Ristic, K. (2025). Symbolic Natural Language Inference for German Open Information Extraction [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130460
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
69
-
Keywords:
Symbolic Natural Language Inference; Textual Entailment; Open Information Extraction; German
en
Abstract:
Die automatisierte Bewertung offener Antworten von Studierenden anhand von Musterlösungen im Deutschen, insbesondere im juristischen Bereich, erfordert präzise und interpretierbare Methoden. Diese Arbeit begegnet dieser Herausforderung, indem sie die Bewertung von Antworten anhand von Musterlösungen als offene, durch textuelle Implikation validierte Informationsextraktion konzipiert. Wir nutzen Implikation als Verifizierungsschritt: Ein Antwortabschnitt eines Studierenden gilt nur dann als korrekt, wenn er die entsprechenden erforderlichen Informationen aus der Musterlösung enthält.Diese Arbeit verwendet ein symbolisches Framework für die validierte Extraktion und leistet wichtige Beiträge zur Anpassung der grafischen Wissensrepräsentation an das Deutsche und zur Modellierung des Negationsumfangs. Der Kern des Frameworks basiert auf einer grafischen Wissensrepräsentation, die sowohl für Prämissenmuster aus Musterlösungen als auch für Sätze aus Antworten von Studierenden erstellt wurde. Diese Repräsentation baut auf Dependency Parsing auf, erweitert dieses jedoch erheblich durch die Einbeziehung mehrerer Ebenen linguistischer Details. Diese Ebenen umfassen eine lexikalische Ebene für Synonyme und hierarchische Beziehungen, eine Eigenschaftsebene zur Erfassung morphologischer Merkmale des Deutschen und eine Kontextebene mit regelbasierter Negationserkennung zur präzisen Modellierung des Negationsumfangs.Diese detaillierten grafischen Wissensdarstellungen werden anschließend in einem mehrstufigen, graphenbasierten Matching-Prozess verglichen. Dieser Vergleich verifiziert die Implikation durch den Abgleich von Prämissen- und Hypothesengraphen, die Prüfung auf erforderliche Konzepte und Argumente und die Berücksichtigung der kodierten lexikalischen, morphologischen und Negationsbeschränkungen. Die Evaluierung des Frameworks anhand der Bewertung deutscher Rechtsfalllösungen zeigt, dass die Einbeziehung externen lexikalischen Wissens und die explizite Negationsbehandlung sowohl die Präzision als auch den F1-Gesamtwert im Vergleich zu Basismethoden erhöhen. Der symbolische Charakter des Systems ermöglicht die Erklärbarkeit während des gesamten Extraktionsprozesses.
de
Automated grading of open-ended student answers against sample solutions in the German language, particularly within the legal domain, necessitates methods that are both accurate and interpretable. This thesis addresses this challenge by framing the task of grading student answers against sample solutions as open information extraction validated by textual entailment. We leverage entailment as a verification step: a student’s answer segment is considered correct only if it entails the corresponding required information from the sample solution.This thesis employs a symbolic framework for validated extraction, featuring key contributions in adapting graphical knowledge representation for German and modeling negation scope. The core of the framework uses a graphical knowledge representation constructed for both premise patterns derived from sample solutions and sentences from student answers. This representation builds upon dependency parsing but significantly enriches them by incorporating multiple layers of linguistic detail. These layers include a lexical layer for synonyms and hierarchical relations, a property layer capturing morphological features specific to German, and a context layer featuring rule-based negation detection to accurately model the negation scope. These detailed graphical knowledge representations are then compared using a multi-stage, graph-based matching process. This comparison verifies entailment by matching premise and hypothesis graphs, checking for required concepts and arguments, and respecting the encoded lexical, morphological, and negation constraints. Evaluating this framework on the task of grading German legal case solutions demonstrates that incorporating external lexical knowledge and explicit negation handling increases both precision and overall F1 score compared to baseline methods. The symbolic nature of the system allows for explainability throughout the entire extraction process.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers