Dass, R. G. (2025). Building Bridges in Research: Automated Capture and Semantic Mapping of Provenance in Virtual Research Environments [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130662
Machine-Learning-Workflows in der modernen wissenschaftlichen Forschung sind oft über mehrere Tools und Umgebungen fragmentiert, was zu verstreuten oder unvollständigen Metadaten führt. Diese Fragmentierung macht es unmöglich, nachzuvollziehen, wie Modelle trainiert, welche Datensätze verwendet und welche Entscheidungen die experimentellen Ergebnisse beeinflusst haben. Dadurch verschlechtern sich Transparenz, Reproduzierbarkeit und Überprüfbarkeit, was die langfristige Zuverlässigkeit und Wiederverwendbarkeit der Machine-Learning-Forschung einschränkt.Diese Arbeit untersucht, wie semantische Provenienztechniken in virtuelle Forschungsumgebungen (VREs) integriert werden können, um diese Probleme zu lösen. Durch die Definition der wichtigsten Metadatenanforderungen über den gesamten Lebenszyklus des maschinellen Lernens erstellen wir eine formale Zuordnung zu Community-Standards wie FAIR, FAIR4ML, PROV-O, Croissant und MLSEA. Auf dieser Grundlage schlagen wir eine Strategie zur Integration verschiedener Metadatenquellen in eine semantisch reichhaltige Repräsentation vor. Dieser Ansatz wird in einem modularen Framework implementiert, das JupyterHub, GitHub, DBRepo und Invenio mit MLflow-Unterstützung für die halbautomatische Metadatenerfassung kombiniert. Wichtige Aspekte wie Datensatzherkunft, Trainings-Setups, Laufzeitumgebung und Begründungsinformationen werden in maschinenlesbaren Formaten (JSON-LD und RDF/XML) exportiert. Ein Streamlit-basiertes Dashboard erleichtert die Visualisierung, den Vergleich von Experimentläufen und SPARQL-basierte Herkunftsabfragen.Das Framework wurde anhand gezielter Experimente und einer Nutzerstudie mit zwei Machine-Learning-Experten bewertet. Die Ergebnisse zeigen, dass über 70\% der Metadaten auf Feldebene automatisiert oder halbautomatisiert erfasst wurden. Dies bestätigt die Benutzerfreundlichkeit, Rückverfolgbarkeit und Konformität des Frameworks mit semantischen Standards. Insgesamt bietet diese Arbeit eine wiederholbare und standardkonforme Lösung für das Herkunftsmanagement in Machine-Learning-Pipelines innerhalb von VREs.
de
Machine learning workflows in modern scientific research are often fragmented across multiple tools and environments, resulting in scattered or incomplete metadata. This fragmentation makes it impracticable to determine how models were trained, which datasets were utilized, and what decisions impacted experimental results. As a result, transparency, reproducibility, and auditability deteriorate, limiting the long-term reliability and reusable nature of machine learning research.This thesis examines how semantic provenance techniques can be included into Virtual Research Environments (VREs) in order to address these problems. By defining key metadata needs across the machine learning lifecycle, we create a formal mapping to community standards like as FAIR, FAIR4ML, PROV-O, Croissant, and MLSEA. Based on this basis, we suggest a strategy for integrating diverse metadata sources into a semantically rich representation.This approach is implemented within a modular framework that combines JupyterHub, GitHub, DBRepo, and Invenio, with MLflow support for semi-automated metadata gathering. Key aspects including dataset provenance, training setups, runtime environment, and justification information are exported in machine-readable forms (JSON-LD and RDF/XML). A Streamlit-based dashboard makes it easier to visualize, compare experiment runs, and do SPARQL-based provenance queries.The framework is assessed using targeted experiments and a user study with two machine learning practitioners. The results show that over 70\% of field-level metadata was captured using automation or semi-automation, confirming the framework's usability, traceability, and conformity with semantic standards. Overall, this work provides a repeatable and standards-compliant solution to manage provenance in machine learning pipelines within VREs.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers