Elsayed, I. (2011). Dataspace support platform for e-science [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-59341
In den verschiedenen wissenschaftlichen Disziplinen werden laufend Forschungsdaten gesammelt, die in der Regel über Webportale moderner Forschungsinfrastrukturen für die Datenanalyse zugänglich gemacht werden. Es ist heute von großer Wichtigkeit die Ergebnisse dieser Analysen mit den verwendeten Inputdaten zu verknüpfen und diese Verknüpfungen semantisch anzureichern, um dadurch die Wiederverwendung der Daten sowie der analytischen Methoden zu fördern. In der Fachliteratur werden zahlreiche Systeme, die riesige Mengen an geografisch verteilten Forschungsdaten verwalten können, vorgestellt, allerdings ist bei diesen die (Datenspace-) Schlüsselfunktion nämlich das Verwalten von semantisch angereicherten Verknüpfungen nicht ausreichend berücksichtigt. Diese offene Forschungsfrage wird in vorliegender Dissertation behandelt, indem ein effizienter Datenmanagement-Ansatz für Forschungsinfrastrukturen gegeben wird. Unser Ansatz ist es, die Verknüpfung zwischen den Inputdaten und den Forschungsergebnissen semantisch anzureichern und beides (Daten und Verknüpfungen) für die Wiederverwendung nachhaltig zu archivieren.<br />Dadurch können systematisches Bereitstellen, Abfragen und Wiederverwenden von Input- und Ergebnisdaten im Rahmen von Forschungsinfrastrukturen erleichtert werden. Die für die Wiederverwendung der Daten notwendige Archivierung bedarf der Berücksichtigung des gesamten Daten-Lebenszyklus. Wir stellen eine auf OWL basierende neue Ontologie für die Erstellung von semantisch angereicherten Verknüpfungen zwischen Input- und Ergebnisdaten wissenschaftlicher Studien vor. Die wichtigsten wissenschaftlichen Beiträge dieser Dissertation sind: (1) Das e-Science Lebenszyklus-Modell, ein spezifisches Modell, das den gesamten Daten-Lebenszyklus für die effiziente Archivierung wissenschaftlicher Studien berücksichtigt; (2) Die semantische Anreicherung wissenschaftlicher Studien, um Verknüpfungen mit einem semantischen Modell zu beschreiben; (3) Eine Architektur für die Langzeitarchivierung des gesamten Daten-Lebenszyklus wissenschaftlicher Studien; (4) Eine Plattform für den groß angelegten wissenschaftlichen Datenspace - jSpace, die die Ergebnisse dieser Dissertation zusammenführt und es ermöglicht, mehrere Datenspace-Instanzen verschiedener Anwendungsgebiete zu verbinden; und (5) Die jSpace Java Programmierschnittstelle, die Methoden zur Verfügung stellt, um Daten wissenschaftlicher Studien semantisch aufzubereiten sowie in einer verteilten Datenumgebung zu verwalten. Der Software-Prototyp ist auf der jSpace Webseite zum Download verfügbar.<br />
de
Scientific data, collected in various research domains are made accessible for significant analysis through portals by the means of e-Infrastructures. Managing the outcome of these analyses in conjunction with its corresponding input data, by enriching the existing relationship with semantics to facilitate reuse of data and analytical methods is nowadays more important than ever. Systems providing advanced integrated view to large-scale and distributed scientific data are described in the literature to a great extent, however the key (dataspace) feature managing semantic relationships is not well considered and thus it represents an open research challenge to be addressed in this work. This work focuses its effort on scientific dataspaces, which, if applied in e-Science applications can provide a highly efficient and powerful scientific data management solution for e-Infrastructures. Our approach is to semantically enrich the existing relationship among primary and derived datasets and to preserve both, relationships and datasets together within a dataspace to be reused by owners and others. This approach is shown to significantly improve assisted publishing, discovery, and reuse of primary and derived data used in scientific studies within e-Infrastructures. To enable reuse, data must be well preserved, which can best be established if the full life cycle of data is addressed. We present a novel OWL ontology for the creation of semantically rich relationships among primary and derived datasets in scientific studies. The major contributions of this thesis include: (1) e-Science life cycle model, a specific model addressing the complete data life cycle to provide well-preserved scientific studies, (2) Semantic markup for scientific studies enabling to describe relationships among datasets of scientific studies with a semantic model, (3) Long-term preservation framework providing preservation of the complete life cycle of data in scientific studies, (4) Large-scale scientific dataspace platform - jSpace integrating the achievements presented in this thesis enabling to interconnect multiple dataspace instances from various domains, and (5) jSpace Java API providing all needed methods to construct semantic data about scientific studies and a model for their management within a distributed data environment. The jSpace prototype software can be downloaded from the jSpace Web page.