Jahn, R. (2021). Reasoning in knowledge graphs: Methods and techniques [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.82944
Durch die rapide technologische Entwicklung in den letzten Jahren wurde es immer einfacher und dadurch üblicher, riesige Datenmengen zu sammeln, zu speichern und zu verarbeiten. Da diese Daten aus vielen unterschiedlichen Quellen stammen, sind sie häufig sehr heterogen. Knowledge Graphs verkörpern eine Technologie, die es ermöglicht, diese heterogenen Daten auf eine semantische und einheitliche Art zu repräsentieren, indem Entitäten und die Beziehungen zwischen ihnen durch ein strukturiertes, aber gleichzeitig flexibles Format ausgedrückt werden. Außer der Datenspeicherung gibt es in Knowledge Graphs üblicherweise auch Informationen auf konzeptioneller (oder ontologischer) Ebene, wie z.B. Domänenbeschränkungen, Allgemeinwissen o.Ä., die in Form von Regeln hinterlegt sind. Durch diese werden Folgerungen auf Basis der Daten und darin gefundener Muster ermöglicht. Obwohl logisches Folgern in der Informatik schon lange ein wichtiges Thema ist, wurde es durch die Forschung an Knowledge Graphs nun wieder in den Vordergrund gerückt. Das wurde besonders deutlich durch die vielen Bestrebungen, die Mengen an wissenschaftlichen Arbeiten in diesem Bereich zu strukturieren, z.B. durch Chen et al., Al-Moslmi et al. und Hogan et al. Leider behandeln diese und andere Überblicksarbeiten oft nur wenige Arten von logischem Folgern und Aufgaben im Lebenszyklus eines Knowledge Graph, und haben häufig einen Fokus auf bestimmte Domänen, was in dieser Arbeit beleuchtet wird. Aufgrund der fehlenden umfassenden Überblicksarbeit zu diesem Thema ist es schwierig, mit den vielfältigen Ansätzen und Methoden sowie dem Stand der Technik vertraut zu werden. Außerdem sind viele Publikationen auf Domänenexpert*innen ausgerichtet und sogar Hintergrundwissen ist häufig nur verstreut zu finden. Der Beitrag dieser Arbeit ist daher: (1) eine umfassende, leicht verständliche Zusammenfassung des relevanten Hintergrundwissens sowie eine Verortung im aktuellen Stand der Technik; (2) ein Überblick über verschiedene Methoden des logischen Folgerns in Anbetracht mehrerer Aspekte, und nicht nur beschränkt auf ein Anwendungsgebiet oder Unterthema; (3) eine umfassende Untersuchung dieser Methoden, inkl. Logik-, Statistik-und Graph-basiertem Folgern sowie Kombinationen davon und Synergien zwischen den Methoden; (4) eine Abhandlung über den ganzen Lebenszyklus betreffende Aufgaben sowie jeweils dafür geeignete Methoden. Die Definition des Lebenszyklus basiert auf Auer et al. und Pouchard, wird aber auf die drei breiteren Kategorien Wissensintegration, Knowledge-Graph-Evolution und Anwendungen reduziert.
de
Owing to the rapid technical development in recent years, collecting, storing and managing massive amounts of data on and off the Web has become more feasible and therefore more common. Because of its various sources, the collected data is usually highly heterogeneous. Knowledge graphs constitute a technology that makes it possible to represent and organize such heterogeneous data in a semantic and unified way by describing entities and their inter-relations in a structured but flexible format. In addition to storing the raw data, knowledge graphs normally have a layer of conceptual knowledge (also called ontological knowledge), usually represented as a set of rules, that contains domain constraints, encodes common knowledge or enables reasoning about the data and patterns therein. Although reasoning itself is a long-standing topic in computer science, it has become an important new focus in knowledge graph research in recent years. This has been made apparent by many attempts of structuring the massive amounts of research works in this area such as the surveys by Chen et al. and Al-Moslmi et al. or the overview provided by Hogan et al. Unfortunately, existing surveys usually only cover some types of reasoning or life cycle tasks in depth or only focus on certain domains, as will be extensively presented in the thesis. A multitude of reasoning methods and frameworks have been proposed for and applied to knowledge graphs with different results and varying degrees of success. However, because of the lack of a comprehensive, deep and diverse survey on the topic, it is challenging to gain a foothold in this area, as the target audience are often experts in the field and even background knowledge is frequently scattered throughout various pieces of literature. The main contributions of this thesis are: (1) Providing a comprehensive background that is understandable also for non-experts in the field along with an embedding into the state-of-the-art literature. (2) Giving an overview of various reasoning paradigms and the state of the art considering multiple aspects and not just focusing on one area of application or subtopic. (3) Including different types of reasoning, like statistics-based, logic-based and graph-based methods as well as combined approaches, thereby not limiting the results by ignoring valuable insights about synergies between the methods. (4) Examining reasoning methods as they pertain to the whole life cycle and which tasks they are most suited for. The life cycle classification we use is based on Auer et al. and Pouchard, but will be reduced to three broader categories: knowledge integration, knowledge graph evolution and knowledge applications.