Hager, G. (2016). Improving verifyability and repeatability for data-driven workflows [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.30641
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2016
-
Number of Pages:
87
-
Keywords:
Workflow Management Systeme; Machine Learning; Verifikation; Verifizierbarkeit; Wiederholbarkeit; Dynamic Data Citation; Data Citation; Data Provenance; Datenherkunft; Cloud-basiert
de
Workflow Management Systems; Machine Learning; Verification; Verifiability; Repeatability; Dynamic Data Citation; Data Provenance; Cloud-based
en
Abstract:
Das Verwenden von Workflow Systeme für Machine Learning ermöglicht es Daten skalierbar und effizient zu verarbeiten, um daraus Modelle herzustellen, die für datengetriebene Entscheidungen und Vorhersagen verwendet werden können. Diese Masterarbeit untersucht Konzepte für die Verbesserung der Verifikation und Wiederholbarkeit von Workflows. Die behandelten Themen sind Data Provenance und Dynamic Data Citation. Es wird untersucht wie Provenance Information während der Ausführung eines Workflow gesammelt und dargestellt werden kann. Des Weiteren wird analysiert wie das Zitieren von dynamischen Daten mit Hilfe von Workflows umgesetzt werden kann. Um die Durchführbarkeit der ausgearbeiteten Konzepte zu zeigen, wurden eine praktische Implementierung in einer cloud-basierten Machine Learning Umgebung durchgeführt. Die fertige Implementierung wurde möglichst generisch konstruiert damit man die Vorgehensweise auch auf andere Workflow Management Systeme anwenden kann. Zusätzlich wurden Empfehlungen für Machine Learning Applikationen erstellt, um die behandelten Themen besser unterstützen zu können. Der Einsatz der ausgearbeiteten Konzepte und Empfehlungen dieser Masterarbeit verbessern die Verifizierbarkeit und Wiederholbarkeit von Workflows.
de
Using Workflow Systems for Machine Learning provides a scalable and efficient way to process data to create models which can be used for data-driven decisions and predictions. This thesis examines concepts for improving the verification and repeatability of such workflows. The covered topics include Data Provenance and Dynamic Data Citation. It investigates how provenance information can be collected during workflow execution and properly represented with a model. Furthermore it is analyzed how the citation of dynamic data can be realized in form of a workflow. To show the feasibility of the elaborated concepts some practical implementations are created in a high-performance, cloud-based machine learning environment. The final implementation is generically designed so the construction approach can be used for other workflow management systems. In addition recommendations for machine learning applications for supporting the discussed topics are proposed. The created concepts and recommendations can be used for improving the verifiability and repeatability of workflows.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers Zusammenfassung in deutscher Sprache