Huber, P. M. (2015). Enabling data citation for XML data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.23275
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2015
-
Number of Pages:
102
-
Keywords:
XML; Datenbank; Native XML Datenbank; Data Citation; Reproduzierbarkeit
de
XML; Database; Native XML Database; Data Citation; Reproducible Research
en
Abstract:
Im Rahmen dieser Diplomarbeit wird die Problematik der Zitierbarkeit von Subsets von XML Datensets in nativen XML Datenbanken analysiert und neue Ansätze entwickelt. Wissenschaftliche Experimente und somit Publikationen, die deren Ergebnisse zusammenfassen und diskutieren, basieren oft auf Subsets von Datensets. Diese Daten zu referenzieren wird zu einer Herausforderung sobald sich die Datenbank im Laufe der Zeit ändert, da somit auch identifizierte Subsets nicht gleich bleiben. Folglich werden weitere Experimente, die auf bereits durchgeführten Experimenten aufbauen, unmöglich gemacht. Basierend auf bereits bestehenden wissenschaftlichen Arbeiten auf dem Gebiet der Data Citation entwickeln wir zwei Ansätze, die eine Lösung für das beschriebene Problem im Kontext von nativen XML Datenbanken darstellen. Die beiden Ansätze definieren zwei verschiedene Wege Datensets zu versionieren und somit jegliche Änderungen zu erfassen, um frühere Versionen des Datensets wiederherstellen zu können. Wir präsentieren einen Parser als Schnittstelle zwischen BenutzerIn und Datenbank Management System. Dieser Parser empfängt alle Queries, die von BenutzerInnen abgeschickt werden und generiert dem gewählten Archivierungsansatz entsprechende Queries. Abschließend werden diese neu generierten Queries an das Datenbank Management System geschickt um sowohl das gewünschte Update als auch die Historisierung der Datenbank durchzuführen. Die Evaluierung beider präsentierter Ansätze wird mit Hilfe ausgewählter Testszenarios und Performancemessungen anhand zweier künstlich generierter Datensets, die sich durch ihre hierarchische Struktur unterscheiden, durchgeführt. Des Weiteren werden zwei Datenbank Management Systeme vorgestellt und verglichen und schließlich zwei Szenarios ausgewählt und durchlaufen um Unterschiede aufzuzeigen. Das erste Szenario wird lediglich neue Daten hinzufügen, wohingegen der Fokus des zweiten Szenarios auf dem Editieren bzw. dem Löschen bestehender Datensätze liegt. Im Zuge der Analyse der Performancemessungen erweist sich einer der beiden präsentierten Ansätze als praxistauglich, da sowohl der zusätzliche Speicheraufwand als auch die Laufzeiten der Queries in einem akzeptablen Rahmen bleiben. Es muss jedoch auch erwähnt werden, dass sich die durchschnittliche Laufzeit der Queries nach 100 000 Operationen, die neue Daten hinzufügen bzw. alte Daten editieren/löschen, von run 500 Millisekunden auf rund 700 Millisekunden erhöht.
de
In this thesis we address the challenge of making subsets of XML datasets stored in native XML databases citable. Within the field of scientific research experiments are often based on data that are subsets of data sources stored in databases. References to these data are problematic as databases evolve over time by being updated. This means that identified subsets do not stay the same and hence further experiments based on already carried out experiments become impossible. Using results of scientific research in the field of data citation as starting point, we develop two approaches to overcome this problem for native XML databases. The two approaches define two different ways of versioning and thus keeping track of changes made to the dataset in order to be able to reconstruct former states of the dataset. In both solutions a parser acting as middleware between the user and the database management system is presented. This parser receives all queries entered by the user and rewrites them in order to fit the chosen approach of versioning. Finally the rewritten queries are sent to the database management system and invoke the necessary actions. Both approaches are evaluated via testing scenarios as well as performance tests on artificially generated datasets. We present two datasets showing different hierarchical structures and compare two different database management systems. Furthermore, we include two scenarios differing in the updates performed on the databases. The first one only inserts new content and the second one mainly updates and deletes existing content besides inserting new pieces of information. We conclude this thesis with the insight that one of the implemented approaches is practicable in terms of storage overhead and query execution times. However we also show that the average query runtime of operations that insert, update or delete content increases from about 500 ms to 700 ms after 100 000 queries.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache