SHACL shapes extraction for evolving knowledge graphs

Pürmayr, Eva

doi:10.34726/hss.2025.120502

Datensatz Zitierlink:

https://doi.org/10.34726/hss.2025.120502
http://hdl.handle.net/20.500.12708/208798

Titel:

SHACL shapes extraction for evolving knowledge graphs

Zitat:

Pürmayr, E. (2025). SHACL shapes extraction for evolving knowledge graphs [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.120502

reposiTUm-DOI:

10.34726/hss.2025.120502

CatalogPlus:

AC17408742

Publikationstyp:

Hochschulschrift - Diplomarbeit

Sprache:

Englisch

Autor_innen:

Pürmayr, Eva

Betreuer_in:

Hose, Katja

Organisationseinheit:

E192 - Institut für Logic and Computation

Datum (veröffentlicht):

2025

Umfang:

128

Keywords:

RDF; SHACL; SPARQL; Evolving Knowledge Graphs; QSE; SHACL Shape Comparison; SHACL Shapes Extraction; Java; Semantic Web; Data Quality

Abstract:

RDF-Wissensgraphen haben ein breites Anwendungsspektrum in der Industrie und in der Wissenschaft. Dabei ist die Datenqualität entscheidend, welche mit der Validierungssprache SHACL überprüft werden kann. Es gibt bereits ein Tool namens QSE (Quality Shapes Extraction), welches automatisch SHACL-Shapes von großen Datensets generiert. Eine webbasierte Erweiterung namens Shactor visualisiert den Extraktionsprozess und zeigt Statistiken an. Wissensgraphen sind allerdings nicht statisch und können mehrere Versionen haben, welche sich eventuell nur minimal unterscheiden. In diesem Bereich gibt es noch keine Tools, mit welchen SHACL-Shapes zwischen verschiedenen Wissensgraphversionen verglichen werden können. Eine weitere offene Frage ist, ob es Möglichkeiten gibt, QSE für Graphen mit mehreren Versionen zu beschleunigen. Um diese erste Wissenslücke zu schließen, wurde eine webbasierte Anwendung erstellt, mit der SHACL-Shapes verglichen werden können. Ebenso wurden zwei Algorithmen entwickelt. Einer beschäftigt sich mit der Verwendung von Changesets zwischen verschiedenen Graphversionen, um den QSE-Prozess zu beschleunigen, während der andere bestehende SHACL-Shapes in nachfolgenden Versionen eines Wissensgraphen prüft. Die Forschungsfragen wurden mithilfe des Design-Science-Research-Frameworks beantwortet, wobei als Methoden eine systematische Literaturrecherche, Prototyping, algorithmisches Design, halb-strukturierte Experteninterviews und technische Experimente verwendet wurden. Die wesentlichen Ergebnisse zeigen, dass ein webbasiertes Tool zum Vergleich von SHACL-Shapes benutzerfreundlicher ist als der Verzicht auf zusätzliche Anwendungen. Der SHACL-Extraktionsprozess von QSE kann durch die Verwendung von Changesets beschleunigt werden, jedoch nur, wenn die Changesets im Vergleich zum tatsächlichen Graphen relativ klein sind. Darüber hinaus ist die Nutzung von SPARQL-Abfragen zur Überprüfung von existierenden SHACL-Shapes in folgenden Graphversionen schneller als QSE mehrfach auszuführen. Diese Version hat allerdings den Nachteil, dass hinzugefügte oder aktualisierte Shapes nicht erkannt werden können.

RDF knowledge graphs have a broad range of applications in academia and industry. Ensuring data quality is vital and SHACL can be used as a validation language for this purpose. Previously, an approach called QSE (Quality Shapes Extraction) which automatically extracts SHACL shapes from large datasets, has been released. An extension to this program is called Shactor, a web-based tool that visualizes the extraction process and provides statistics. Since knowledge graphs are not static, there may exist different versions of a graph, maybe with only minimal changes. There is a lack of tools to compare SHACL shapes between these graph versions. Another open issue is determining whether there are methods to accelerate QSE for evolving knowledge graphs. To address this first gap, the proposed solution involves creating a web-based tool for SHACL shape comparison. Additionally, two algorithms were developed. One focuses on using changesets between graph versions to optimize the QSE extraction process, while the other one is designed to verify existing SHACL shapes in subsequent versions of a knowledge graph. The research questions were answered by using the Design Science Research framework, utilizing methods such as a Systematic Literature Review, prototyping, algorithm design, semi-structured expert interviews, and technical experiments. The key findings of the thesis indicate that a web-based tool for SHACL shape comparison is more user-friendly than using no additional tools. The SHACL shapes extraction process used in QSE can be accelerated using graph changesets, but only when the changesets are relatively small in comparison to the actual graph file. Additionally, using SPARQL queries to identify unchanged shapes in a subsequent graph version is faster than executing QSE multiple times, although it has the drawback of not being able to detect added or updated shapes.

Lizenz:

Urheberrechtsschutz

Enthalten in den Sammlungen:

Thesis