Title: Nondestructive generic data transformation pipelines : building an ETL framework with abstract data access
Language: English
Authors: Petsovits, Jakob 
Qualification level: Diploma
Advisor: Küng, Josef 
Issue Date: 2009
Number of Pages: 80
Qualification level: Diploma
Abstract: 
Datenintegration verfolgt die Umwandlung von Daten zwischen verschiedenen Formaten mit einem Minimum an Informationsverlust, oft unter Zuhilfenahme von Mappings und Schemata. ETL ("extract, transform, load") bietet reichhaltige Möglichkeiten zur Datentransformation mittels einer vordefinierten Folge von Operationen; Beibehaltung der Ausgangsdaten ist jedoch zweitrangig.
Die vorliegende Arbeit befasst sich mit der Entwicklung eines generischen Datentransformations-Frameworks auf PHP/Drupal-Basis, das den Datenfluss von ETL mit einem Augenmerk auf originalgetreue Erhaltung der Daten verbindet. Zusätzlich zu Pipelines, die sich aus Operationen zusammensetzen, werden zwei Aspekte aus der traditionellen Datenintegration als wesentliche Bestandteile des Frameworks verwendet.
Datenwrapper bieten vereinheitlichten Zugriff auf Daten, die intern in ihrer ursprünglichen Form gehalten werden. Dies ermöglicht nicht nur Import/Export-Datenflüsse, sondern auch das Laden, Verändern und Speichern existierender Daten. Schemata beschreiben die Struktur dieser Daten, wodurch Typsicherheit verbessert und generische Mapping-Funktionalität ermöglicht werden kann. Die Implikationen und Problemstellungen beider Elemente werden in der Arbeit untersucht und ein Prototyp implementiert.

Data integration aims to translate data between different formats with minimal loss of information, often making use of mappings and schema information. ETL ("extract, transform, load") offers powerful transformation capabilities by chaining input data through a user-defined series of operations; accurate preservation of data is only a secondary goal.
This work presents the creation of a generic data transformation framework for PHP/Drupal that combines ETL-like data flow with a focus on data preservation. In addition to pipelines comprised of operations, two aspects more commonly known from traditional data integration are also included as integral part of the framework.
Data wrappers expose an interface to access data which is stored in its original form, enabling load/modify/save workflows in addition to import/recompose/export. Schemas describe the exposed data structures, they improve type safety and enable generic mapping functionality. These capabilities imply a set of characteristics and challenges that are discussed and implemented.
Keywords: ETL; Datenintegration; Drupal; Web; Mashups; Pipelines
ETL; Data integration; Drupal; Web; Mashups; Pipelines
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-24640
http://hdl.handle.net/20.500.12708/8954
Library ID: AC05040864
Organisation: KEIN - 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

Show full item record

Page view(s)

13
checked on Feb 18, 2021

Download(s)

56
checked on Feb 18, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.