Building bridges in research : automated capture and semantic mapping of provenance in virtual research environments

Dass, Reema George

doi:10.34726/hss.2025.130662

DC Field

Value

Language

dc.contributor.advisor

Rauber, Andreas

dc.contributor.author

Dass, Reema George

dc.date.accessioned

2025-10-28T12:43:39Z

dc.date.issued

2025

dc.date.submitted

2025-09

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Dass, R. G. (2025). <i>Building bridges in research : automated capture and semantic mapping of provenance in virtual research environments</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130662</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2025.130662

dc.identifier.uri

http://hdl.handle.net/20.500.12708/220453

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Machine learning workflows in modern scientific research are often fragmented across multiple tools and environments, resulting in scattered or incomplete metadata. This fragmentation makes it impracticable to determine how models were trained, which datasets were utilized, and what decisions impacted experimental results. As a result, transparency, reproducibility, and auditability deteriorate, limiting the long-term reliability and reusable nature of machine learning research.This thesis examines how semantic provenance techniques can be included into Virtual Research Environments (VREs) in order to address these problems. By defining key metadata needs across the machine learning lifecycle, we create a formal mapping to community standards like as FAIR, FAIR4ML, PROV-O, Croissant, and MLSEA. Based on this basis, we suggest a strategy for integrating diverse metadata sources into a semantically rich representation.This approach is implemented within a modular framework that combines JupyterHub, GitHub, DBRepo, and Invenio, with MLflow support for semi-automated metadata gathering. Key aspects including dataset provenance, training setups, runtime environment, and justification information are exported in machine-readable forms (JSON-LD and RDF/XML). A Streamlit-based dashboard makes it easier to visualize, compare experiment runs, and do SPARQL-based provenance queries.The framework is assessed using targeted experiments and a user study with two machine learning practitioners. The results show that over 70% of field-level metadata was captured using automation or semi-automation, confirming the framework's usability, traceability, and conformity with semantic standards. Overall, this work provides a repeatable and standards-compliant solution to manage provenance in machine learning pipelines within VREs.

dc.description.abstract

Machine-Learning-Workflows in der modernen wissenschaftlichen Forschung sind oft über mehrere Tools und Umgebungen fragmentiert, was zu verstreuten oder unvollständigen Metadaten führt. Diese Fragmentierung macht es unmöglich, nachzuvollziehen, wie Modelle trainiert, welche Datensätze verwendet und welche Entscheidungen die experimentellen Ergebnisse beeinflusst haben. Dadurch verschlechtern sich Transparenz, Reproduzierbarkeit und Überprüfbarkeit, was die langfristige Zuverlässigkeit und Wiederverwendbarkeit der Machine-Learning-Forschung einschränkt. Diese Arbeit untersucht, wie semantische Provenienztechniken in virtuelle Forschungsumgebungen (VREs) integriert werden können, um diese Probleme zu lösen. Durch die Definition der wichtigsten Metadatenanforderungen über den gesamten Lebenszyklus des maschinellen Lernens erstellen wir eine formale Zuordnung zu Community-Standards wie FAIR, FAIR4ML, PROV-O, Croissant und MLSEA. Auf dieser Grundlage schlagen wir eine Strategie zur Integration verschiedener Metadatenquellen in eine semantisch reichhaltige Repräsentation vor. Dieser Ansatz wird in einem modularen Framework implementiert, das JupyterHub, GitHub, DBRepo und Invenio mit MLflow-Unterstützung für die halbautomatische Metadatenerfassung kombiniert. Wichtige Aspekte wie Datensatzherkunft, Trainings-Setups, Laufzeitumgebung und Begründungsinformationen werden in maschinenlesbaren Formaten (JSON-LD und RDF/XML) exportiert. Ein Streamlit-basiertes Dashboard erleichtert die Visualisierung, den Vergleich von Experimentläufen und SPARQL-basierte Herkunftsabfragen.Das Framework wurde anhand gezielter Experimente und einer Nutzerstudie mit zwei Machine-Learning-Experten bewertet. Die Ergebnisse zeigen, dass über 70% der Metadaten auf Feldebene automatisiert oder halbautomatisiert erfasst wurden. Dies bestätigt die Benutzerfreundlichkeit, Rückverfolgbarkeit und Konformität des Frameworks mit semantischen Standards. Insgesamt bietet diese Arbeit eine wiederholbare und standardkonforme Lösung für das Herkunftsmanagement in Machine-Learning-Pipelines innerhalb von VREs.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Virtual Research Environment

dc.subject

Provenance

dc.subject

Metadata

dc.subject

Reproducibility

dc.subject

FAIR Principles

dc.subject

FAIR4ML

dc.subject

MLSea

dc.subject

PROV-O

dc.subject

Croissant

dc.subject

MLflow

dc.subject

Automatic

dc.title

Building bridges in research : automated capture and semantic mapping of provenance in virtual research environments

dc.title.alternative

Brücken bauen in der Forschung automatische Erfassung und semantische Abbildung von Provenienz in virtuellen Forschungsumgebungen

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2025.130662

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Reema George Dass

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17682843

dc.description.numberOfPages

147

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-9272-6225

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.grantfulltext

open

item.cerifentitytype

Publications

item.openairetype

master thesis

item.mimetype

application/pdf

item.languageiso639-1

item.fulltext

with Fulltext

item.openaccessfulltext

Open Access

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(3.35 MB)

In Copyright

Show simple item record

Page view(s)

122

checked on Oct 28, 2025

Download(s)

148

checked on Oct 28, 2025

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM