<div class="csl-bib-body">
<div class="csl-entry">Dass, R. G. (2025). <i>Building Bridges in Research: Automated Capture and Semantic Mapping of Provenance in Virtual Research Environments</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130662</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.130662
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/220453
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Machine-Learning-Workflows in der modernen wissenschaftlichen Forschung sind oft über mehrere Tools und Umgebungen fragmentiert, was zu verstreuten oder unvollständigen Metadaten führt. Diese Fragmentierung macht es unmöglich, nachzuvollziehen, wie Modelle trainiert, welche Datensätze verwendet und welche Entscheidungen die experimentellen Ergebnisse beeinflusst haben. Dadurch verschlechtern sich Transparenz, Reproduzierbarkeit und Überprüfbarkeit, was die langfristige Zuverlässigkeit und Wiederverwendbarkeit der Machine-Learning-Forschung einschränkt.Diese Arbeit untersucht, wie semantische Provenienztechniken in virtuelle Forschungsumgebungen (VREs) integriert werden können, um diese Probleme zu lösen. Durch die Definition der wichtigsten Metadatenanforderungen über den gesamten Lebenszyklus des maschinellen Lernens erstellen wir eine formale Zuordnung zu Community-Standards wie FAIR, FAIR4ML, PROV-O, Croissant und MLSEA. Auf dieser Grundlage schlagen wir eine Strategie zur Integration verschiedener Metadatenquellen in eine semantisch reichhaltige Repräsentation vor. Dieser Ansatz wird in einem modularen Framework implementiert, das JupyterHub, GitHub, DBRepo und Invenio mit MLflow-Unterstützung für die halbautomatische Metadatenerfassung kombiniert. Wichtige Aspekte wie Datensatzherkunft, Trainings-Setups, Laufzeitumgebung und Begründungsinformationen werden in maschinenlesbaren Formaten (JSON-LD und RDF/XML) exportiert. Ein Streamlit-basiertes Dashboard erleichtert die Visualisierung, den Vergleich von Experimentläufen und SPARQL-basierte Herkunftsabfragen.Das Framework wurde anhand gezielter Experimente und einer Nutzerstudie mit zwei Machine-Learning-Experten bewertet. Die Ergebnisse zeigen, dass über 70\% der Metadaten auf Feldebene automatisiert oder halbautomatisiert erfasst wurden. Dies bestätigt die Benutzerfreundlichkeit, Rückverfolgbarkeit und Konformität des Frameworks mit semantischen Standards. Insgesamt bietet diese Arbeit eine wiederholbare und standardkonforme Lösung für das Herkunftsmanagement in Machine-Learning-Pipelines innerhalb von VREs.
de
dc.description.abstract
Machine learning workflows in modern scientific research are often fragmented across multiple tools and environments, resulting in scattered or incomplete metadata. This fragmentation makes it impracticable to determine how models were trained, which datasets were utilized, and what decisions impacted experimental results. As a result, transparency, reproducibility, and auditability deteriorate, limiting the long-term reliability and reusable nature of machine learning research.This thesis examines how semantic provenance techniques can be included into Virtual Research Environments (VREs) in order to address these problems. By defining key metadata needs across the machine learning lifecycle, we create a formal mapping to community standards like as FAIR, FAIR4ML, PROV-O, Croissant, and MLSEA. Based on this basis, we suggest a strategy for integrating diverse metadata sources into a semantically rich representation.This approach is implemented within a modular framework that combines JupyterHub, GitHub, DBRepo, and Invenio, with MLflow support for semi-automated metadata gathering. Key aspects including dataset provenance, training setups, runtime environment, and justification information are exported in machine-readable forms (JSON-LD and RDF/XML). A Streamlit-based dashboard makes it easier to visualize, compare experiment runs, and do SPARQL-based provenance queries.The framework is assessed using targeted experiments and a user study with two machine learning practitioners. The results show that over 70\% of field-level metadata was captured using automation or semi-automation, confirming the framework's usability, traceability, and conformity with semantic standards. Overall, this work provides a repeatable and standards-compliant solution to manage provenance in machine learning pipelines within VREs.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Virtual Research Environment
en
dc.subject
Provenance
en
dc.subject
Metadata
en
dc.subject
Reproducibility
en
dc.subject
FAIR Principles
en
dc.subject
FAIR4ML
en
dc.subject
MLSea
en
dc.subject
PROV-O
en
dc.subject
Croissant
en
dc.subject
MLflow
en
dc.subject
Automatic
en
dc.title
Building Bridges in Research: Automated Capture and Semantic Mapping of Provenance in Virtual Research Environments
en
dc.title.alternative
Brücken bauen in der Forschung: Automatischer Erfassung und Semantische Abbildung von Provenienz in virtuellen Forschungsumgebungen
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.130662
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Reema George Dass
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering