Schabasser, F. (2024). Beyond sparks : crafting clarity through fine-grained data lineage [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.121644
Data Lineage; Data Provenance; Traceability; Big Data; Spark
en
Abstract:
Da Data Scientists zunehmend größere Datenmengen verarbeiten, stoßen traditionelle Programme, die auf einem einzelnen Rechner laufen, an ihre Grenzen. Verteilte Architekturen, die die Datenverarbeitung auf mehrere Rechner verteilen, gewinnen zunehmend an Bedeutung. Eine wesentliche Herausforderung bei der Nutzung von Data Intensive Scalable Computing (DISC)-Systemen ist die Nachvollziehbarkeit der Datenverarbeitung. Dies ist insbesondere in stark regulierten Sektoren, wie der Bankenbranche, von entscheidender Bedeutung. Bestehende Forschungsarbeiten haben Methoden zur effizienten Erfassung einer detaillierten data lineage in DISC-Systemen vorgeschlagen. Diese Ansätze weisen jedoch Einschränkungen in Bezug auf ihren funktionalen Umfang oder ihre Systemmerkmale auf. Diese Arbeit präsentiert Lineage Master – einen neuartigen Ansatz, der Konzepte aus bestehenden Forschungsarbeiten kombiniert, um ein wiederverwendbares, transparentes und skalierbares System zur Erfassung feingranularer data lineage zu entwickeln. Mit Lineage Master können Data Scientists Fehlerursachen in ihren Datenpipelines schnell identifizieren, Ergebnisse schrittweise reproduzieren und tiefere Einblicke in ihre mit höheren Programmiersprachen erstellten Programme gewinnen. Angesichts der Kurzlebigkeit der eingesetzten Technologien liegt ein Fokus dieser Arbeit auf der Wiederverwendbarkeit des Systems. Um die Praktikabilität des Ansatzes zu demonstrieren, haben wir Lineage Master genutzt, um Apache Spark zu instrumentieren. Die Ergebnisse unserer Experimente zeigen, dass unser Ansatz die Erfassung einer feingranularen data lineage bei der Datenverarbeitung in verschiedenen DISC-Systemen ermöglicht. Um die Wiederverwendbarkeit des Systems zu verbessern, haben wir die Erfassung der data lineage von ihrer Verarbeitung entkoppelt und eine klar definierte Schnittstelle zwischen den beiden Schichten etabliert. Die Evaluierung unseres praxisnahen Anwendungsfalls zeigt, dass Lineage Master unter bestimmten Voraussetzungen für die Erfassung der feingranularen data lineage effizient eingesetzt werden kann, selbst bei der Verarbeitung großer Datenmengen. Damit stellt Lineage Master eine praktikable und skalierbare Lösung dar, um die Nachvollziehbarkeit zahlreicher Data-Science-Workflows zu verbessern.
de
As data scientists process ever-increasing volumes of data, traditional programs operating on a single machine are reaching their limits. Consequently, distributed architectures that divide data processing across multiple machines are becoming increasingly important. A significant challenge faced by Data Intensive Scalable Computing (DISC) systems is the lack of support for data tracking and workflow provenance, which is especially critical in highly regulated sectors like the banking industry. While existing research has proposed methods for efficiently collecting fine-grained data lineage in DISC systems, many approaches have limitations in their functional scope or system characteristics. This thesis introduces Lineage Master, a novel approach that integrates concepts from previous work to create a reusable, transparent, and scalable lineage tracking system. Data scientists using Lineage Master can quickly identify root causes of errors, reproduce results step by step, and gain deeper insights into their programs written in high-level languages. Given the short-lived nature of data science frameworks, the reusability of the lineage tracking system is a primary focus of this work. To demonstrate the feasibility of our approach, we used Lineage Master to instrument Apache Spark. The results of our study demonstrate that our approach effectively captures fine-grained data lineage across different DISC systems. To enhance the system’s reusability, we decoupled the data lineage collection from its analysis and established a well-defined Application Programming Interface (API) between the two layers. Our evaluation using a real-world example shows that, under specific conditions, Lineage Master can efficiently capture fine-grained data lineage even when processing large volumes of data. Consequently, Lineage Master provides a practical and scalable solution for improving the traceability of numerous data science workflows.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers