Database replication; Data citation; Temporal databases; Research data management; Distributed systems; Versioned data; Reproducibility
en
Abstract:
Diese Arbeit erweitert DBRepo, ein System zur Verwaltung versionierter relationaler Forschungsdaten, um einen Replikationsmechanismus, der einen konsistenten Betrieb über mehrere unabhängige Standorte hinweg ermöglicht. DBRepo unterstützt bereits präzise Zeitstempel, temporales SQL sowie zitierfähige anfragebasierte Datenreferenzierung im Sinne der Empfehlungen der RDA Working Group on Data Citation. Bislang galten diese Garantien jedoch nur für Einzelstandort-Deployments. Da Forschungseinrichtungen zunehmend verteilte Infrastrukturen betreiben, wird ein Mechanismus zur Replikation versionierter Daten, Metadaten und Anfragehistorien über mehrere Standorte hinweg erforderlich.Die in dieser Arbeit vorgestellte Erweiterung führt einen Replikationsdienst auf Anwendungsebene ein, der die Erstellung von Datenbanken, Tabellen, Views sowie temporalen Tupeländerungen zwischen primären und sekundären Standorten koordiniert. Die Replikation bewahrt sowohl die Ereigniszeit als auch die standortlokale Verarbeitungszeit, sodass jeder Standort den exakten Zustand der Daten zu jedem Zeitpunkt in der Vergangenheit rekonstruieren kann. Eine Timestamp-Pipeline stellt sicher, dass Versionshistorien auch bei Netzwerkverzögerungen oder vorübergehenden Ausfällen vollständig und konsistent bleiben. Subset-Queries und ihre Metadaten werden als stabile, standortunabhängige Objekte repliziert und ermöglichen dadurch eine deterministische erneute Ausführung sowie langfristige Reproduzierbarkeit.Die resultierende Architektur integriert sich nahtlos in die bestehende Microservice-Architektur und das Metadatenschema von DBRepo und bleibt zugleich mit den Empfehlungen der RDA konform. Eine erste Evaluierung zeigt, dass der Ansatz einen zuverlässigen Multi-Site-Betrieb unterstützt, die Integrität der temporalen Versionierung bewahrt und die zentralen Reproduzierbarkeitseigenschaften von DBRepo erhält.
de
This thesis extends DBRepo, a system for managing versioned relational research data, with a replication mechanism that enables consistent operation across multiple independent sites. DBRepo already supports precise timestamping, temporal SQL, and query-based data citation in line with the recommendations of the RDA Working Group on Data Citation. Until now, however, these guarantees applied only in single-site deployments. As research organisations increasingly operate distributed infrastructures, a mechanism for replicating versioned data, metadata, and query histories across sites becomes essential.The work presented here introduces an application-layer replication service that coordinates the creation of databases, tables, views, and temporal tuple updates across primary and secondary sites. Replication preserves both event time and site-local processing time, allowing each site to reconstruct the exact state of data at any point in the past. A dedicated timestamp pipeline ensures that version histories remain complete and consistent even in the presence of network delays or temporary outages. Subset queries and their metadata are replicated as stable, site-independent objects, enabling deterministic re-execution and long-term reproducibility.The resulting architecture integrates seamlessly with DBRepo's existing microservices and metadata schema while maintaining compliance with the RDA recommendations. An initial evaluation shows that the approach supports reliable multi-site operation, preserves the integrity of temporal versioning, and retains the core reproducibility properties of DBRepo.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers