<div class="csl-bib-body">
<div class="csl-entry">Staudinger, M. (2023). <i>Reproducible query processing in relational databases with evolving database schemas</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.101569</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2023.101569
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/177266
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Heutzutage ändern und entwickeln sich Daten ständig, egal ob es sich nun um Texte, Websites, Tweets oder Sensormesswerte handelt. All diese verschiedenen Arten von Daten müssen in irgendeiner Form gespeichert werden, sei es in einer dateibasierten Struktur, einer relationalen Datenbank, einer Graphdatenbank oder einer anderen Form. Wenn Sie von Ihnen verwendeten Daten referenzieren oder sie sogar zitieren wollen, beginnen die Probleme. Die zugrundeliegenden Daten sind umgezogen, die Daten haben sich geändert, oder die Struktur der Daten hat sich geändert und ist nicht mehr verfügbar. In der Forschung helfen diese Daten, wissenschaftliche Entdeckungen zu beschleunigen und Ergebnisse zu verifizieren, wenn die Daten verfügbar sind. In den letzten Jahren hat es in diesem Bereich große Fortschritte gegeben, da die Zitierung von Daten immer wichtiger geworden ist und viele Konferenzen von den Autoren verlangen, dass sie ihre verwendeten und generierten Daten zur Verfügung stellen. Wenn die generierten Daten statisch sind, kann dies durch Hochladen des Datensatzes geschehen, aber für sich dynamisch entwickelnde Datensätze wäre dies ineffektiv. Daher ist es wichtig bestehende Ansätze für die dynamische Datenzitierbarkeit weiterzuentwickeln. In dieser Masterarbeit präsentieren wir ein Framework für dynamische Datenzitierbarkeit in PostgreSQL. Unsere Arbeit besteht darin, drei verschiedene Ansätze zur Datenversionierung für PostgreSQL zu implementieren und zu untersuchen wie diese sich in einem realen Szenario verhalten. Wir haben die RDA Dynamic Data Citation Guidelines auf das International Soil Moisture Network angewendet und die Auswirkungen auf die Leistung gemessen. Außerdem haben wir eine Architektur zur Speicherung von Abfragen vorgestellt, die es ermöglicht, ein Set von Abfragen zu zitieren und gleichzeitig die Korrektheit der Reproduzierbarkeit jeder einzelnen Abfrage zu überprüfen. Da Schemaänderungen in Forschungsdatenbanken relevant sind, haben wir untersucht, wie Schemaänderungen automatisch implementiert werden können, um die Reproduzierbarkeit zuvor ausgeführter Abfragen zu gewährleisten.
de
dc.description.abstract
In today's world, data is constantly changing and evolving, whether it is text, websites, tweets or sensor readings. All these different types of data need to be stored in some form, whether it is in a file-based structure, a relational database, a graph database or some other form. If you want to reference or even cite the data you are using, the problems start. The underlying data has moved, the data has changed, or the structure of the data has changed and is no longer available. In research, this data helps to speed up scientific discovery and to verify results when the data is available. There has been much progress in this area in recent years, as data citation has become increasingly important and many conferences now require authors to provide their used and generated data. If the generated data is static, this can be done by uploading the dataset, but for dynamically evolving datasets this would be ineffective. Therefore, it is necessary to extent existing solutions for dynamic data citation.In this master thesis we proposed and evaluated a framework for dynamic data citation in PostgreSQL. Our work consists of implementing and evaluating three different data versioning approaches and then adapt our framework to fit the need of a real-world scenario and evaluate it on this scenario. We applied the RDA Dynamic Data Citation Guidelines to the International Soil Moisture Network and measured the impact on performance. We also presented a query storage architecture that allows sets of queries to be cited at once, while verifying the correctness of the reproducibility of each query. As schema changes are common in research databases, we also evaluated how schema changes can be automatically implemented to ensure the reproducibility of previously executed queries.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Reproduzierbarkeit
de
dc.subject
FAIR
de
dc.subject
dynamische Datenzitierbarkeit
de
dc.subject
Datenbanksysteme
de
dc.subject
Versionierung
de
dc.subject
Reproducibility
en
dc.subject
FAIR
en
dc.subject
Dynamic Data Citation
en
dc.subject
Database Systems
en
dc.subject
Versioning
en
dc.title
Reproducible query processing in relational databases with evolving database schemas
en
dc.title.alternative
Reproduzierbare Abfragenprozessierung in Relationalen Datenbanken mit evolutionierenden Datenbankschemata
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2023.101569
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Moritz Staudinger
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Miksa, Tomasz
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16855978
-
dc.description.numberOfPages
100
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
tuw.author.orcid
0000-0002-5164-2690
-
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-9272-6225
-
tuw.assistant.orcid
0000-0002-4929-7875
-
item.openairetype
master thesis
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.openaccessfulltext
Open Access
-
item.mimetype
application/pdf
-
item.languageiso639-1
en
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.grantfulltext
open
-
crisitem.author.dept
E194-04 - Forschungsbereich Data Science
-
crisitem.author.orcid
0000-0002-5164-2690
-
crisitem.author.parentorg
E194 - Institut für Information Systems Engineering