Bischof, S. (2017). Complementary methods for the enrichment of linked data [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.45578
RDF; Linked Data; SPARQL; OWL; Missing value imputation
en
Abstract:
Offen verfügbare Daten, die basierend auf Semantic Web Standards und Linked Data Prinzipien in einem einheitlichen Format am Web veröffentlicht werden, stellen eine hochwertige Quelle zur Datenanalyse dar. Obwohl die Integration von Daten der Hauptanwendungsfall von Semantic Web Technologien ist, ist eine solche Integration in der Praxis nicht trivial, da trotz einheitlicher Syntax aber wegen unvollständiger Daten eine semantische Heterogenität überwiegt. Als praktischen Anwendungsfall vergleichen wir in dieser Dissertation statistische Städtedaten, die bereits öffentlich im Word Wide Web in (semi-) strukturierter Form als Linked Data zur Verfügung stehen. Dazu evaluieren wir verschiedene Datenquellen und integrieren passende Datensätze durch den Einsatz von Semantic Web Technologien. Zuerst befassen wir uns in dieser Arbeit speziell mit der Herausforderung vollständige und vergleichbare Daten aus offenen RDF Datenbanken zu extrahieren, besonders im Hinblick auf OWL Entailment Regimes. Wir kommen zu dem Schluss, dass OWL Inferenz alleine keine ausreichende Lösung für unvollständige Daten und Heterogenitätsprobleme ist. Als Ansatz um diese Probleme insbesondere für numerische Daten zu lösen, entwickeln wir Methoden um fehlende Daten abzuschätzen, basierend auf bekannten statistischen Methoden sowie auf der deklarativen Repräsentation von numerischen Beziehungen in Form von algebraischen Gleichungen. Schlussendlich diskutieren wir Kombinationen dieser Methoden und entwickeln einen kombinierten Ansatz zur Verknüpfung regelbasierter und statistischer Methoden zur Anreicherung von Linked Data.
de
Data published in accordance with Semantic Web standards and Linked Data principles constitutes a prime source of openly available data ready for analysis in a unified format. Even though the main use case of Semantic Web technologies is data integration, in practice getting comparable data is not trivial, that is heterogeneity problems and challenges arising through incomplete data prevail despite syntactic homogeneity. The use case we focus on in this thesis revolves around comparing statistical data about cities found on the Web in (semi-) structured form integrated as Linked Data. Firstly, we evaluate different data sources and eventually integrate suitable datasets using Semantic Web technologies and RDF. Hereby, the work specifically addresses the challenges of getting complete data from SPARQL endpoints, for instance with respect to OWL entailment regimes. However, we come to the conclusion that OWL inference alone is insufficient for resolving incompleteness and heterogeneity problems, especially for numerical data. To this end, we develop methods to infer missing numerical data exploiting statistical methods and equational knowledge. Lastly, we discuss combinations of these methods, i.e. we develop a combined approach for integrating rule-based and statistical methods for Linked data enrichment.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers