Bruckner, R. M. (2002). Zero-latency data warehousing : toward an integrated analysis environment with minimized latency for data propagations [Dissertation, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/179182
Data warehousing is a powerful concept for organizations to analyze their business. It generates benefits for the business as it transforms the intelligence contained in the data into better decision-making, which results in more effective action. The most successful data warehouse implementations deliver business value on an iterative and continuous basis. Therefore, we propose a six-stage data warehouse evolution model in order to meet the need for minimized latency in certain data propagation and decision-making processes. The zero-latency data warehouse is our vision of a data warehouse system which aims to decrease the time it takes to make a business decisions. In fact, there should be almost zero-latency between the cause and effect of a business decision. This doctoral thesis proposes a technical architecture for a zero-latency data warehouse and investigates its core components: Time Consistency. We distinguish between two different temporal characterizations of the information appearing in a data warehouse: one is the classical description of the time instant when a given fact has occurred; the other represents the instant when the information is actually intelligible to the system. This distinction, implicit and usually not critical in on-line transaction processing applications, is of particular importance for zero-latency data warehouses. There it can be most useful (or even vital) to determine and analyze what the situation was in the past, with only the information available at a given point in time. Near Real-Time Data Integration. We will discuss the changing requirements for near real-time data integration in data warehouses. In that context we will study the convergence of traditional ETL (extract-transform-load) and EAI (enterprise application integration) technology, as well as the ODS (operational data store) concept. Finally, we will describe a detailed architecture for near real-time data integration and evaluate two prototype implementations. Active Decision-Making. Both for efficiency reasons and for consistency in decision-making, an organization will want to (semi-)automate decisions whenever the human mind does not add significant value. We investigate and evaluate several approaches for automating routine decision tasks (database triggers, event-condition-action rules, notifications, etc.). Furthermore, we will extend one of the prototypes with event-handling capabilities in order to enable active decision-making during near real-time data integration. Finally, we will discuss strengths and limitations of zero-latency data warehouses, as well as some application scenarios, where the approach we propose strongly improves decision-making.
en
Data Warehousing stellt ein maechtiges Konzept fuer die Analyse der Geschaeftstaetigkeit eines Unternehmens dar. Die Vorteile entstehen, indem die Zusammenhaenge der Daten für bessere Entscheidungen genutzt werden, und somit in effizienteren Aktivitaeten resultieren. Die erfolgreichsten Data Warehouse Implementierungen erbringen ihre Vorteile auf einer kontinuierlichen, iterativen Basis. Wir stellen ein sechs-stufiges Evolutionsmodell fuer Data Warehouses vor, um den Bedarf nach minimierter Verzoegerung bei Datentransport- und Entscheidungsprozessen zu erfuellen. Das sogenannte Zero-Latency Data Warehouse beschreibt die Vision eines Data Warehouse Systems, das die Verringerung der Zeit zur Entscheidungsfindung zum Ziel hat. Tatsaechlich soll nahezu keinerlei Verzoegerung zwischen der Ursache und dem Effekt einer Entscheidung liegen. Die vorliegende Dissertation stellt eine technische Architektur fuer Zero-Latency Data Warehouses vor und untersucht ihre zentralen Komponeten: Zeitkonsistenz: Wir unterscheiden zwischen zwei unterschiedlichen zeitlichen Charakterisierungen für Information in einem Data Warehouse: einerseits die klassische Beschreibung des Zeitpunkts zu dem ein bestimmtes Faktum aufgetreten ist, andererseits den Augenblick zu dem die Information erst im System tatsaechlich verfuegbar ist. Diese Unterscheidung, die in transaktionsverarbeitenden Systemen implizit und nicht kritisch ist, ist von besonderer Bedeutung im Zero-Latency Data Warehouse. Hier kann es sehr nuetzlich (oder sogar notwendig) sein, festzustellen und zu analysieren wie sich bestimmte Situationen dargestellt haben, basierend auf dem Wissensstand eines bestimmten Zeitpunkts der in Vergangenheit liegt. Zeitnahe Datenintegration: Wir diskutieren die veraenderten Anforderungen an zeitnahe Datenintegration in Data Warehouses. In diesem Kontext untersuchen wir die Konvergenz zwischen traditionellen ETL (Extraktion-Transformation-Laden) und EAI (Unternehmensapplikationsintegration) Technologien, sowie das ODS (operationale Datenhaltung) Konzept. Schliesslich praesentieren wir eine detaillierte Architektur fuer zeitnahe Datenintegration und untersuchen und vergleichen zwei Prototyp-Implementierungen. Aktive Entscheidungen: Ein Unternehmen moechte aus Gruenden der Effizienz und der Konsistenz in Entscheidungsprozessen, Entscheidungen (halb-)automatisieren, wenn die menschliche Interaktion keinen wesentlichen Beitrag hierfuer leistet. Wir untersuchen und bewerten einige Ansaetze zur Automatisierung von Routine-Entscheidungstaetigkeiten (z.B. Datenbank-Trigger, Ergebnis-Bedingungs-Aktions-Regeln, Benachrichtungen). Zusaetzlich erweitern wir einen der Prototypen um die Faehigkeit auf Ereignisse mittels aktiven Entscheidungen bereits waehrend der zeitnahen Datenintegration zu reagieren. Schliesslich diskutieren wir die Staerken und die Einschraenkungen von Zero-Latency Data Warehouses, sowie Anwendungsszenarien, in welchen der vorliegende Ansatz Entscheidungsprozesse wesentlich verbessert.