Persistente Identifikation und Referenzierung von sich ändernden Daten in Computerexperimenten

Wörister, Florian

doi:10.34726/hss.2020.65680

DC Field

Value

Language

dc.contributor.advisor

Rauber, Andreas

dc.contributor.author

Wörister, Florian

dc.date.accessioned

2020-11-13T10:01:32Z

dc.date.issued

2020

dc.date.submitted

2020

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Wörister, F. (2020). <i>Persistente Identifikation und Referenzierung von sich ändernden Daten in Computerexperimenten</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.65680</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2020.65680

dc.identifier.uri

http://hdl.handle.net/20.500.12708/16186

dc.description.abstract

The role of computational experiments as a source of insights is becoming increasingly important in the scientific community. The datasets used for experiments are often not a static resource but rather evolve over time (e.g. records are added because new information is available, existing records are modified or deleted in order to correct mistakes). When it comes to publishing the results of those experiments, it is common practice to put the code on an institutional website or into a code repository and reference the dataset by providing a link. As links can break, this leads to a lack of reproducibility. Therefore, it is cumbersome for other researchers to find and re-use computational experiment assets (code or data) if everyone stores them on their institutional website. In this thesis, we provide a new plugin for the a data repository which enables researchers to publish and cite specific subsets of evolving datasets. In addition, we provide an interface that can be used by computational experiments to persistently retrieve datasets from the repository by providing their persistent identifier. Furthermore, we show how persistent identification of experiment source code and data subsets can increase the FAIRness of the published experiment. As a result, we define five guidelines to support researchers in increasing the FAIRness of their computational experiments based on subsets of continuously evolving data.

dc.description.abstract

Die Rolle computergestützter Experimente als Quelle von wissenschaftlichen Erkenntnissen gewinnt zunehmend an Bedeutung in der wissenschaftlichen Community. Dabei sind die verwendeten Datensätze oft nicht statisch, sondern entwickeln sich im zeitlichen Verlauf weiter (z.B. werden Einträge hinzugefügt, modifiziert oder gelöscht). Beim Publizieren der Ergebnisse ist es üblich den Sourcecode in einem entsprechenden Repository und die benutzten Daten auf der Institutswebseite zu veröffentlichen. Auf die verwendeten Datensätze wird meist via URL verwiesen. Da diese jedoch ihre Gültigkeit verlieren können, führt das zu nicht reproduzierbaren Forschungsergebnissen. Diese gängige Praxis macht es anderen Forschern schwer, publizierte Experimente zu finden und wiederzuverwenden. In dieser Arbeit präsentieren wir ein Plugin für ein Forschungsdatenrepository, welches Wissenschaftlern ermöglicht Subsets von sich ändernden Datensätzen zu veröffentlichen und zu zitieren. Zusätzlich wird eine Schnittstelle bereitgestellt, die es computergestützten Experimenten durch Angabe des entsprechenden persistenten Identifikators ermöglicht, die Datensätze zu beziehen. Es wird gezeigt, dass die persistente Identifikation von Sourcecode und verwendeten Daten die FAIRness dieser Experimente erhöht. Als Resultat werden fünf Guidlines definiert, um Wissenschaftler dabei zu unterstützen, die FAIRness ihrer veröffentlichten Experimente zu erhöhen.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Datenmanagement

dc.subject

Zitieren von Daten

dc.subject

Computerexperimente

dc.subject

Versionierung

dc.subject

Reproduzierbarkeit

dc.subject

NoSQL

dc.subject

Forschungsdaten Repositorien

dc.subject

CKAN

dc.subject

Data Management

dc.subject

Data Citation

dc.subject

Computational Experiments

dc.subject

Versioning

dc.subject

Reproducibility

dc.subject

NoSQL

dc.subject

Research Data Repositories

dc.subject

CKAN

dc.title

Persistente Identifikation und Referenzierung von sich ändernden Daten in Computerexperimenten

dc.title.alternative

Persistent identification and referencing of evolving research data in computational experiments

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2020.65680

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Florian Wörister

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC16072106

dc.description.numberOfPages

105

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-9272-6225

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

E058-06 - Fachbereich Zentrum für Forschungsdatenmanagement

crisitem.author.parentorg

E058 - Forschungs-, Technologie- und Innovationssupport

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2.19 MB)

In Copyright

Show simple item record

Page view(s)

1,056

checked on Nov 21, 2023

Download(s)

350

checked on Nov 21, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM