Staudinger, M. (2023). Reproducible query processing in relational databases with evolving database schemas [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.101569
Reproducibility; FAIR; Dynamic Data Citation; Database Systems; Versioning
en
Abstract:
Heutzutage ändern und entwickeln sich Daten ständig, egal ob es sich nun um Texte, Websites, Tweets oder Sensormesswerte handelt. All diese verschiedenen Arten von Daten müssen in irgendeiner Form gespeichert werden, sei es in einer dateibasierten Struktur, einer relationalen Datenbank, einer Graphdatenbank oder einer anderen Form. Wenn Sie von Ihnen verwendeten Daten referenzieren oder sie sogar zitieren wollen, beginnen die Probleme. Die zugrundeliegenden Daten sind umgezogen, die Daten haben sich geändert, oder die Struktur der Daten hat sich geändert und ist nicht mehr verfügbar. In der Forschung helfen diese Daten, wissenschaftliche Entdeckungen zu beschleunigen und Ergebnisse zu verifizieren, wenn die Daten verfügbar sind. In den letzten Jahren hat es in diesem Bereich große Fortschritte gegeben, da die Zitierung von Daten immer wichtiger geworden ist und viele Konferenzen von den Autoren verlangen, dass sie ihre verwendeten und generierten Daten zur Verfügung stellen. Wenn die generierten Daten statisch sind, kann dies durch Hochladen des Datensatzes geschehen, aber für sich dynamisch entwickelnde Datensätze wäre dies ineffektiv. Daher ist es wichtig bestehende Ansätze für die dynamische Datenzitierbarkeit weiterzuentwickeln. In dieser Masterarbeit präsentieren wir ein Framework für dynamische Datenzitierbarkeit in PostgreSQL. Unsere Arbeit besteht darin, drei verschiedene Ansätze zur Datenversionierung für PostgreSQL zu implementieren und zu untersuchen wie diese sich in einem realen Szenario verhalten. Wir haben die RDA Dynamic Data Citation Guidelines auf das International Soil Moisture Network angewendet und die Auswirkungen auf die Leistung gemessen. Außerdem haben wir eine Architektur zur Speicherung von Abfragen vorgestellt, die es ermöglicht, ein Set von Abfragen zu zitieren und gleichzeitig die Korrektheit der Reproduzierbarkeit jeder einzelnen Abfrage zu überprüfen. Da Schemaänderungen in Forschungsdatenbanken relevant sind, haben wir untersucht, wie Schemaänderungen automatisch implementiert werden können, um die Reproduzierbarkeit zuvor ausgeführter Abfragen zu gewährleisten.
de
In today's world, data is constantly changing and evolving, whether it is text, websites, tweets or sensor readings. All these different types of data need to be stored in some form, whether it is in a file-based structure, a relational database, a graph database or some other form. If you want to reference or even cite the data you are using, the problems start. The underlying data has moved, the data has changed, or the structure of the data has changed and is no longer available. In research, this data helps to speed up scientific discovery and to verify results when the data is available. There has been much progress in this area in recent years, as data citation has become increasingly important and many conferences now require authors to provide their used and generated data. If the generated data is static, this can be done by uploading the dataset, but for dynamically evolving datasets this would be ineffective. Therefore, it is necessary to extent existing solutions for dynamic data citation.In this master thesis we proposed and evaluated a framework for dynamic data citation in PostgreSQL. Our work consists of implementing and evaluating three different data versioning approaches and then adapt our framework to fit the need of a real-world scenario and evaluate it on this scenario. We applied the RDA Dynamic Data Citation Guidelines to the International Soil Moisture Network and measured the impact on performance. We also presented a query storage architecture that allows sets of queries to be cited at once, while verifying the correctness of the reproducibility of each query. As schema changes are common in research databases, we also evaluated how schema changes can be automatically implemented to ensure the reproducibility of previously executed queries.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers