Petsovits, J. (2009). Nondestructive generic data transformation pipelines : building an ETL framework with abstract data access [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-24640
Datenintegration verfolgt die Umwandlung von Daten zwischen verschiedenen Formaten mit einem Minimum an Informationsverlust, oft unter Zuhilfenahme von Mappings und Schemata. ETL ("extract, transform, load") bietet reichhaltige Möglichkeiten zur Datentransformation mittels einer vordefinierten Folge von Operationen; Beibehaltung der Ausgangsdaten ist jedoch zweitrangig.<br />Die vorliegende Arbeit befasst sich mit der Entwicklung eines generischen Datentransformations-Frameworks auf PHP/Drupal-Basis, das den Datenfluss von ETL mit einem Augenmerk auf originalgetreue Erhaltung der Daten verbindet. Zusätzlich zu Pipelines, die sich aus Operationen zusammensetzen, werden zwei Aspekte aus der traditionellen Datenintegration als wesentliche Bestandteile des Frameworks verwendet.<br />Datenwrapper bieten vereinheitlichten Zugriff auf Daten, die intern in ihrer ursprünglichen Form gehalten werden. Dies ermöglicht nicht nur Import/Export-Datenflüsse, sondern auch das Laden, Verändern und Speichern existierender Daten. Schemata beschreiben die Struktur dieser Daten, wodurch Typsicherheit verbessert und generische Mapping-Funktionalität ermöglicht werden kann. Die Implikationen und Problemstellungen beider Elemente werden in der Arbeit untersucht und ein Prototyp implementiert.<br />
de
Data integration aims to translate data between different formats with minimal loss of information, often making use of mappings and schema information. ETL ("extract, transform, load") offers powerful transformation capabilities by chaining input data through a user-defined series of operations; accurate preservation of data is only a secondary goal.<br />This work presents the creation of a generic data transformation framework for PHP/Drupal that combines ETL-like data flow with a focus on data preservation. In addition to pipelines comprised of operations, two aspects more commonly known from traditional data integration are also included as integral part of the framework.<br />Data wrappers expose an interface to access data which is stored in its original form, enabling load/modify/save workflows in addition to import/recompose/export. Schemas describe the exposed data structures, they improve type safety and enable generic mapping functionality. These capabilities imply a set of characteristics and challenges that are discussed and implemented.<br />