Ganellari, A. (2025). Verbalisation techniques for ontologies [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.122425
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
87
-
Keywords:
Ontology verbalisation; Large language models (LLMs); OWL ontologies; LLMs reasoning; Hybrid verbalisation methods; Template-based verbalisation; Semantic Web; Natural language generation (NLG)
en
Abstract:
Ontologien werden häufig eingesetzt, um domänenspezifisches Wissen zu modellieren, doch die Darstellung ihres logischen Gehalts in natürlicher Sprache bleibt schwierig—sowohl für Menschen als auch für große Sprachmodelle (LLMs). Diese Arbeit untersucht, ob die Verbalisierung von Ontologieaxiomen die Leistungsfähigkeit von LLMs bei Schlussfolgerungsaufgaben verbessert und welche Verbalisierungsansätze sich als besonders zuverlässig erweisen.Zunächst führen wir eine systematische Literaturübersicht von 23 Arbeiten (2020–2025) durch und ordnen sie drei Familien zu: Template/Controlled Natural Language, Hybrid und LLM-basiert. Aus dieser Übersicht leiten wir konsistente Bewertungskriterien ab—fidelity (kontextuelle Genauigkeit), coherence (Sprachflüssigkeit) und scalability (Skalierbarkeit)—und fassen typische Designentscheidungen sowie offene Forschungslücken zusammen.Anschließend entwickeln wir eine einheitliche Evaluationspipeline und implementieren je eine repräsentative Methode pro Familie: DeepOnto (Template/CNL), OntoLearn (LLM-basiert) und Zaitoun et al. (hybrid CNL to LLM). Wir testen sie auf vier Ontologien (Wine, SENSE, OBI, UBERON) und vergleichen drei Darstellungsformen desselben Axioms: eine DL-ähnliche Form (Expr), einen CNL-Satz (CNL) und eine natürlichsprachliche Verbalisierung (NL). Wir nutzen drei komplementäre Aufgaben:Operator-Komponenten-Tagging, Ja/Nein-QA und Defekterkennung(Original vs. verfälschte Axiome). Das Hauptergebnis ist eindeutig: Natürlichsprachliche Verbalisierung hilft bei der Defekterkennung-NL erreicht eine Genauigkeit von 0.966 gegenüber 0.504 (Expr) und 0.503 (CNL), also einen Gewinn von +0.462 gegenüber Expr. NL liegt auch bei Ja/Nein-QA vorn (0.120 vs. 0.078 für Expr und 0.045 für CNL). Ein kleiner Klassifikationstest zeigt NL leicht im Nachteil (delta − 0.058), was darauf hindeutet, dass in starksymbolischen Szenarien DL-/CNL-Formen weiterhin Vorteile bieten können.Insgesamt balancieren hybride Ansätze Sprachflüssigkeit und Bedeutungswahrung am besten; Template/CNL-Methoden sind am stabilsten und am treuesten zur ursprünglichen Semantik; LLM-basierte Verfahren sind flexibel, benötigen jedoch Kontrollmechanismen.Die Arbeit liefert eine aktuelle Kartierung der Techniken, eine reproduzierbare Pipeline und praxisnahe Leitlinien, wann und wie jede Methodenfamilie die LLM-basierte Inferenz unterstützen kann.
de
Ontologies are widely used to model domain knowledge, but expressing their logical content in natural language remains hard—both for people and for large language models (LLMs). This thesis investigates whether verbalising ontology axioms improves LLM performance on reasoning tasks, and which verbalisation approaches are most reliable.First, we conduct a systematic literature review of 23 papers (2020–2025) and organise them into three families: Template/Controlled Natural Language, Hybrid, and LLM based. From this review we derive consistent evaluation criteria—fidelity (contextual accuracy), coherence (fluency), and scalability—and summarise common design choices and open gaps.Second, we build a unified evaluation pipeline and implement one representative method from each family: DeepOnto (template/CNL), OntoLearn (LLM-based), andZaitoun et al. (hybrid CNL to LLM) We test them on four ontologies (Wine,SENSE, OBI, UBERON) and compare three input views of the same axiom: a DL-like form (Expr), a CNL sentence (CNL), and a natural-language verbalisation (NL). We use three complementary tasks: operator component tagging, yes/no QA, anddefect detection (original vs. corrupted axioms).The main result is clear: natural-language verbalisation helps on defect detection, NL reaches 0.966 accuracy versus 0.504 (Expr) and 0.503 (CNL)—a +0.462 gain over Expr. NL also leads on yes/no QA (0.120 vs. 0.078 Expr and 0.045 CNL). Onesmall top-classification test shows NL slightly behind (delta)0.058, suggesting that in some very symbolic settings, DL/CNL strings still have an edge.Overall, hybrid balances fluency and meaning, template/CNL is the most stable and faithful, and LLM-based is flexible but needs guardrails. The thesis contributes an up-to-date map of techniques, a reproducible pipeline, and practical guidance on when and how to use each family to support LLM reasoning.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers