Kaya, B. (2010). Benchmarking von ETL-Prozessen in Data Warehouse [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/159918
data warehouse; extraktion; transformation und laden; etl; benchmarking; etl-tool
data warehouse; extraction; transformation and load; etl; benchmarking; etl-tool
Data Warehouses (DWH) bieten schnellen, zentralen Zugriff auf das gesamte unternehmensweite Wissen. Neben dem Speichern dieser wichtigen Geschäftsinformationen ist das schnelle und effiziente Auffinden von Daten eine der wichtigsten Funktionen eines DWH.<br />Extraktion, Transformation und Laden (ETL) ist im Data Warehouse ein zentraler Prozess, der die Daten aus mehreren unterschiedlichen Datenquellen in einem zentralen DWH zur Verfügung stellt. Wird ETL nicht richtig designed, kostet dies viel Entwicklungsarbeit, bedeutet lange Ladeprozesse und hat schlechte Datenqualität zur Folge. In dieser Diplomarbeit wird, basierend auf einer Literaturrecherche, eine systematische Vorgehensweise für den ETL-Prozess erarbeitet. Damit werden einleitend Data Warehouse Systeme sowie der Begriff Datenqualität vorgestellt und in der Folge der ETL-Prozess von IBM, Oracle und Talend anhand eines Kriterienkatalogs geprüft.<br />Um die ausgewählten Tools bewerten, und die funktionalen Unterschiede besser durchleuchten zu können, wird eine Funktionsanalyse ausgeführt. Mit einer Punkteskala werden die ausgewählten Tools bewertet und die Ergebnisse durch ein Spinnendiagramm visualisiert.<br />
Data Warehouses (DWH) provide essential knowledge through the whole company. Beside the storage of such important business information the most useful feature of DWH is to find data efficiently in time.<br />Extract, transform and load (ETL) is a key process in a Data Warehouse which collects data provided by different sources and makes them accessible in a central Data Warehouse. If ETL is used wrongly it needs a lot of implementation effort to use it correctly and the performance of data collection as well as data-quality has also to be optimized.<br />In this thesis ETL-processes are analyzed methodically based on existing literature. The first chapter of the thesis includes general information regarding Data Warehouse Systems as well as Data Quality in general. In the a step specific ETL processes of well known companies such as IBM, Oracle and Talend are compared against each other in order to create a benchmark while using a defined catalogue of criteria.<br />Especially to evaluate functional differences of the tools different methodologies are used. A point scale is used to distinguish the functionalities and the results of the analysis are visualized separately using a radar chart.
