Sommer, M. (2025). Rule Learning for Open Information Extraction [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.122389
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
60
-
Keywords:
open information extraction; rule-based system; LSOIE dataset; semantic hypergraphs; supervised rule learning; WiRe57 dataset; newpotato
en
Abstract:
Open Information Extraction (OIE) ist ein Teilbereich der natürlichen Sprachverarbeitung, bei dem Text automatisch in Tupel strukturiert wird, die Beziehungen zwischen einem Prädikat und mehreren Argumenten abbilden. Dies ist besonders nützlich für weiterführende Anwendungen, wie Frage-Antwort-Systeme, Textzusammenfassungen oder den Aufbau von Wissensdatenbanken. Obwohl neuronale Modelle derzeit die Forschung auf diesem Gebiet dominieren, schränkt deren Black-Box-Natur die Interpretierbarkeit ein und wirft Bedenken hinsichtlich Datenschutz und Datenverzerrungen auf. Darüber hinaus sind die enormen Rechenanforderungen dieser Modelle mit einem hohen Energieverbrauch und CO2-Emissionen verbunden, was erhebliche Herausforderungen für die Nachhaltigkeit darstellt. Diese Diplomarbeit präsentiert ein vollständig transparentes, regelbasiertes OIE-System, das auf dem Konzept semantischer Hypergraphen nach Menezes und Roth aufbaut. Durch die Integration von Annotationen aus dem LSOIE-Datensatz wird deren Entwicklung erweitert und in ein “supervised rule learning” System überführt. Zusätzlich erlaubt die entwickelte Lösung eine flexible Anpassung verschiedener Parameter, wie etwa der Anzahl verwendeter Regeln für die Tupel Extraktion, und unterstützt eine Steuerung des Verhältnisses zwischen Precision und Recall, je nach Zielsetzung des Nutzers. Das System erzielte eine wettbewerbsfähige Leistung bei der Evaluierung auf vier Testdatensätzen aus zwei unterschiedlichen Domänen. So wurde beispielsweise auf einer reduzierten Version des LSOIE-sci/test-Datensatzes eine Precision von 40% und ein Recall von 31,9% erreicht, was einem F1-Wert von 0,355 entspricht. Die Ergebnisse zeigen, dass regelbasierte Methoden konsistente und interpretierbare Lösungen für OIE liefern können und somit eine praktikable Alternative zu komplexen und undurchsichtigen neuronalen Netzwerken darstellen. Die Implementierung dieser Arbeit ist als Open-Source in einem Fork von newpotato auf GitHub verfügbar und wurde unter der MIT-Lizenz veröffentlicht.
de
Open information extraction (OIE) is a natural language processing (NLP) task thatautomatically structures text into tuples, representing relations between a predicatephrase and several arguments. This is particularly useful for various downstream applications such as question-answering systems, text summarization and knowledge base construction. Although neural models currently dominate research in the field, their black box nature limits interpretability and raises concerns about data privacy and data biases. Additionally, the enormous computational demands of these models result in high energy consumption and carbon emissions, posing significant sustainability challenges.This diploma thesis presents a fully transparent, rule-based OIE system that builds on Menezes and Roth’s framework using semantic hypergraphs. In particular, itextends their approach by incorporating annotations from the LSOIE dataset, transforming it into a supervised rule learning system. Furthermore, the resulting solution offers flexible parameters, such as the number of symbolic patterns used for tuple extraction, supporting a trade-off between precision and recall depending on the user’s objective.The system demonstrated competitive performance in evaluations across four test datasets from two distinct domains. For instance, for a filtered version of the LSOIE-sci/test dataset, it achieved 40% precision and 31.9% recall, leading to an F1 score of 0.355. The overall results highlight that rule-based approaches can provide consistent and interpretable solutions for OIE, offering a viable alternative to complex and opaque neural networks. The implementation of this work is available open-source in a fork of the newpotato repository on GitHub, and is released under the MIT License.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers