Chertes, F. I. (2015). A universal layer for schema mapping languages [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.31180
Ein grundlegendes Konzept in "Data Integration" (Daten-Integration) und "Data Exchange" (Daten-Austausch) sind "Schema Mappings" (Schema-Abbildungen). Dieses Konzept stellt den Formalismus für die Beschreibung und Modellierung der Prozesse zur Verfügung, der Daten von einem Quell-Schema in ein Ziel-Schema transferiert. Der übliche Formalismus, um Schema Mappings abzubilden, sind logische Formeln der Prädikaten-Logik erster und zweiter Stufe. Die Benutzung der Prädikaten-Logik ermöglicht eine präzise Definition der Syntax und Semantik der Schema Mappings, ein essentieller Beitrag zum Erfolg der Forschung im Bereich der Data Exchange des letzten Jahrzehntes. Schema Mappings sind von großer Bedeutung in den industriellen Applikationen wie zum Beispiel in dem sehr bekannten IBM CLIO Schema Mappings Produkt, das von Popa et al. in 2002 und von Fuxman et al. in 2006 präsentiert wurde. Visuelle Sprachen für Modellierung der Schema Mappings gewinnen in den letzten Jahren stets Bedeutung im industriellen Kontext. Diese visuellen Sprachen verstecken den logischen Formalismus hinter den grafischen Notationen und ermöglichen damit TechnikerInnen, auch ohne tiefe mathematische Kenntnisse, den vollen Zugang zum Data Exchange. Gleichzeitig sind die visuellen Notationen ausgezeichnete Medien, die MitarbeiterInnen aus sehr unterschiedlichen Arbeitsbereichen zusammenbringen, und so eine nahtlose Zusammenarbeit ermöglichen. Dies ist besonders im Zusammenhang mit "Big Data" Applikationen wichtig, da sich manuelle Umwandlung und Kontrolle, durch die Datengröße und Schema-Komplexität, sehr schwierig gestalten. Die Applikation CLIP, die von Raffio at al. in 2008 präsentiert wurde, ist eines der einflussreicheren Produkte aus dem Bereich der visuellen Sprachen für Modellierung von Schema Mappings. CLIP definiert eine Reihe von Sprachelementen für die Modellierung von sogenannten source-to-target (Quelle-zu-Ziel) Schema Mappings und ist sehr bekannt für die Einführung der "Structural Mappings" (Strukturale Abbildungen) zusätzlich zu den schon bekannten "Value Mappings" (Wert Abbildungen). Nichtsdestotrotz, bemerken wir wichtige Aspekte, die noch verbessert werden können. Erstens gibt es weder einen einheitlichen Formalismus noch einen Standard für die Konstrukte einer solchen visuellen Sprache aus dem Bereich Schema Mappings. Mehr als das, sind diese aktuell etablierten Sprachkonstrukte abhängig von den dazugehörigen Applikationen, sodass konkret, jede visuelle Sprache eigene Sprachkonstrukte hat. Zweitens, wenn Source Code von diesen unterschiedlichen Applikationen (IBM CLIO, Altova MapForce, Stylus Studio, etc.) erstellt wird, dann gibt es Unterschiede in den benutzten Zielsprachen und vor allem in der angewandten Regel, die dies produziert. Schlussendlich mangelt es an Unterstützung für Erweiterungsmechanismen, besonders in Bereichen wie "SO-dependences" (zweite Stufe Abhängigkeiten) und Schema Mappings für nicht relationale Modelle. Daraus folgt, dass Lösungen gesucht gehören, um die industrielle Anwendbarkeit der visuellen Sprachen für Schema Mappings zu verbreiten. Nach unserem besten Wissen gibt es keine etablierte Middleware für visuelle Sprachen aus dem Bereich Schema Mappings. Das Ziel dieser Dissertation ist, eine Lösung für diese gestellten Fragen zu präsentieren. Wir führen eine "unified layer" (eine vereinigte Schicht) für visuelle Sprachen aus dem Schema-Mappings-Bereich ein, die wir UMAP nennen, welche auf Klassendiagrammen der Standardspezifikation Unified Modeling Language (UML) und "constraints" (Beschränkungen) der Standardspezifikation Object Constraints Language (OCL) basieren. Die beiden UML und OCL sind Standardspezifikationen der ISO und OMG, einer visuellen Sprache für Modellierung, bzw. einer constraints Sub-Sprache der UML. Die von uns eingeführte Schicht ist gedacht als Middleware zur Unterstützung visueller Sprachen einer höheren Ebene, wie CLIP oder CLIO. Diese Middleware kann auch direkt für Entwurf, Modellierung und Wartung von Schema Mappings benutzt werden. Diese Dissertation benutzt OCL als standardisierte Abfragesprache für Schema Mappings im Kontext von Data Exchange. Wir benutzen nur bestimmte visuelle Elemente der Sprachen UML und OCL und bekommen für unsere UMAP Sprache eine präzise Syntax und Semantik. Fast alle UML Modellierungs-Umgebungen unterstützen die Generierung von Source Code aus Klassendiagrammen, eine Eigenschaft, die es uns ermöglicht, Data Exchange in verschiedene Zielsprachen zu implementieren. Dieser wichtige Schritt in Richtung der Interoperabilität diverser Applikationen und Technologien ist nur durch konsequente Anwendung der Standards möglich. Die Anwendbarkeit vieler wichtiger Schema Mappings Sprachen höherer Ebenen wird steigen, indem der Zugang zu verschiedenen Referenz-Implementierungen durch UMAP ermöglicht wird.
de
Schema mappings are central notions, both in data exchange and data integration. They provide a precise formalism for modeling and describing the process of transforming source to target instances of a database in an information exchange scenario. The most common formalism for expressing schema mappings are logical formulae, typically in first-order logic or second-order logic. The use of logics allows for exact definitions of the syntax and semantics of schema mappings, contributing to the success of data exchange in theoretical research during the last decade. Similarly, schema mappings have been of high importance in industrial data exchange applications, e.g., in the well-known IBM Clio mapping tool presented by Popa et al. in 2002 and Fuxman et al. in 2006. In the industrial context, visual languages for modeling schema mappings have gained increasing importance over the last years. Visual languages hide logical formalisms behind graphical notations and allow users without deep technical and mathematical background to perform data exchange. The graphical notations are suitable interfaces in bringing together stakeholders from different activity fields. This is especially relevant for big data applications, as manual compilation and inspection becomes inherently complex with increasing schema and data size. One of the most influential approaches along this line is CLIP, presented by Raffio et al. in 2008, a visual high level language for schema mappings. CLIP defines a set of custom language elements, modeling source-to-target schema mappings and introducing structural mappings in addition to value mappings. Nonetheless, we observe a number of drawbacks. First, there is no unified formalism nor standard for the actual constructs of such a visual mapping language: supported language elements depend on the concrete schema mappings tool, thus, each visual language depicts its own graphic elements differently. Second, when automatically generating code from schema mappings, various tools (IBM Clio, Altova MapForce, Stylus Studio, etc.) differ significantly in the number of target languages and the concrete implementation of the rules. Finally, there is a lack of easy extension mechanisms that allow the user to model additional types of schema mappings, e.g., for second-order dependencies, or mappings in the non-relational case. Consequently, these challenging tasks need to be addressed to foster the applicability of visual languages for schema mapping design in industry. To the best of our knowledge, no comprehensive middleware for visual schema mapping languages exists. The goal of this thesis is to fill this gap. To this end, we present a new unifying layer for visual schema mapping languages that we call UMAP, which is based on standardized Unified Modeling Language (UML) class diagrams and Object Constraints Language (OCL) constraints. Both, UML and OCL are standard languages of ISO and OMG, a graphical modeling language and a constraint language, respectively. This layer is intended as a middleware, underlying high-level visual languages like CLIP or CLIO but can also be used directly to visually design, model, and maintain schema mappings. This thesis uses OCL as standard query language for schema mappings in the context of data exchange. By using only standardized and well-understood artifacts from the UML modeling language we obtain a precise syntax and semantics for our layer. Most existing UML toolkits support the generation of code from class diagrams, which we use for implementing our schema mappings in various target languages. This important step towards standardization is done in the direction of interoperability between different tools and technologies. This fosters the usability of high level schema mapping languages by opening the access for different such languages to different reference implementations interfaced by UMAP.
en
Additional information:
Ill., graph. Darst. Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache