Ali, M. I. (2011). Distributed heterogeneous web data sources integration DeXIN approach [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-43038
Data Integration; Web Data Sources; Heterogeneous Data Sources; Mashups; Data Services.
de
Abstract:
In modernen Wirtschaftsunternehmen wird häufig eine integrierte Anwendung entwickelt, um einheitlichen Zugriff auf mehrere bestehende Informationssysteme zu bieten, die innerhalb oder außerhalb des Unternehmens laufen. Datenintegration ist eine tiefgreifende Herausforderung dieser Anwendungen, da Abfragen über mehrere autonome und heterogene Datenquellen reichen.<br />Die Integration solch unterschiedlicher Informationssysteme ist eine anspruchsvolle Aufgabe, insbesondere wenn verschiedene Anwendungen unterschiedliche Datenformate und Abfragesprachen verwenden, die nicht untereinander kompatibel sind.<br />Mit der wachsenden Popularität von Web 2.0-Technologien und der Verfügbarkeit riesiger Mengen an Daten im Web, haben sich die Anforderungen für die Datenintegration, im Vergleich zu traditionellen Ansätzen der Datenbankintegration, geändert. Der große Umfang an Web-Datenquellen hat nicht nur zu einem hohen Maß an Verteilung, Heterogenität, sowie unterschiedlichen Datenformaten und Abfragesprachen geführt, sondern darüber hinaus sind die Daten auch mit zusätzlichen Dateneigenschaften verbunden, wie zum Beispiel Datenschutz, Lizenzierung, Kosten, Qualität der Daten, etc. Daher müssen die Datenintegration-Tools nicht nur einen optimalen Weg zur Verfügung stellen, um die Heterogenität der Datenformate und Abfragesprachen zu reduzieren, sondern darüber hinaus sollten auch die verschiedenen zusätzlichen Dateneigenschaften beibehalten werden, wenn die Daten veröffentlicht oder genutzt werden.<br />Weiters sollte die Auswahl der Datendienste und die Selektion der Daten diese Dateneigenschaften berücksichtigen.<br />Das Ziel dieser Dissertation ist es, bessere Mittel bereitzustellen zur einfachen und dynamischen Integration von verteilten heterogenen Web-Datenquellen (insbesondere XML und RDFDatenquellen), in einer Weise, die es dem Benutzer vereinfachen, Datenintegrationsapplikationen zu erstellen, während gleichzeitig alle Dateneigenschaften mit den damit verbundenen Daten sichergestellt werden.<br />Das Hauptthema dieser Arbeit ist der verteilten heterogenen Datenintegration für Web- Datenquellen gewidmet. Um die Herausforderung der XML und RDF-Datenintegration zu bewältigen, schlagen wir "DeXIN (Distributed extended XQuery for heterogeneous Data Integration)", ein erweiterbares Framework für die verteilte Verarbeitung von Abfragen über heterogene, verteilte und autonome Datenquellen vor. DeXIN verwendet ein Datenformat als Grundlage (das sogenannte "aggregation model") und erweitert die entsprechende Abfragesprache, um Abfragen über heterogene Datenquellen in ihren jeweiligen Abfragesprachen durchzuführen. Wir stellen eine Erweiterung von XQuery vor, welche die volle SPARQL Sprache abdeckt und die dezentrale Ausführung von XQuery als auch SPARQL in einer einzigen Abfrage unterstützt.<br />Für die Sicherstellung der Dateneigenschaften, die mit den veröffentlichten Daten im Web verbunden sind, führen wir ein "Data Concerns Aware Query System" ein.<br />Dieses System vereinigt mehrere Dateneigenschaften in eine Abfragesprache, wodurch es DatenserviceIntegrationssystemen erlaubt wird, Dateneigenschaften, die mit den Datendiensten verbunden sind, zu behandeln.<br />Unser "Data Concerns Aware Query System" erweitert die XQuery-Sprache, um Dateneigenschaften zu berücksichten. Dafür werden spezielle Schlüsselwörter eingeführt, um Dateneigenschaften innerhalb der Abfrage auszudrücken.<br />Im letzten Teil dieser Arbeit entwerfen wir ein Mashup-Tool, welches auf DeXIN aufbaut.<br />Wir präsentieren eine Abfrage-basierte Aggregation von mehreren heterogenen Datenquellen durch die Kombination von vielseitigen Abfrage-Features von XQuery und SPARQL mit einer intuitiven Benutzerschnittstelle eines Mashup-Tools für Datenquellen in XML und RDF. Unser Mashup-Editor ermöglicht die automatische Generierung von Mashups mit einer einfach zu bedienenden visuellen Schnittstelle. Wir nutzen das Konzept der Daten-Mashups, um dynamisch heterogene Web-Datenquellen zu integrieren, indem wir die in DeXIN vorgeschlagene Erweiterung von XQuery benutzen.<br />
de
In modern business enterprises, it is frequent to develop an integrated application to provide uniform access to multiple existing information systems running internally or externally of the enterprise.<br />Data integration is a pervasive challenge faced in these applications that need to query across multiple autonomous and heterogeneous data sources. Integrating such diverse information systems becomes a challenging task particularly when different applications use different data formats and query languages which are not compatible with each other.<br />With the growing popularity of web technologies and availability of the huge amount of data on the web, the requirements for data integration has changed from the traditional database integration approaches. The large scale of web data sources has not only led to high levels of distribution, heterogeneity, different data formats and query languages.<br />Additionally, the data is also associated with data concerns like privacy, licensing, pricing, quality of data, etc. Hence, the data integration tools not only have to provide the optimal solution to mitigate the heterogeneity in data formats and query languages. In addition, also the various data concerns should be preserved when data is published and utilized. Moreover, data service selection and data selection should be based on these data concerns.<br />The goal of this thesis is to provide better means to easily and dynamically integrate distributed heterogeneous web data sources (particularly XML and RDF data sources) in such a way that the user can easily build data integration applications while assuring all the data concerns associated with the data.<br />The main topic of this work is devoted to the distributed heterogeneous data integration for web data sources. In order to deal with the challenge of XML and RDF data integration, we propose "DeXIN (Distributed extended XQuery for heterogeneous data INtegration)", an extensible framework for distributed query processing over heterogeneous, distributed and autonomous data sources. DeXIN considers one data format as the basis (the so-called "aggregation model") and extends the corresponding query language to executing queries over heterogeneous data sources in their respective query languages. We come up with an extension of XQuery which covers the full SPARQL language and supports the decentralized execution of both XQuery and SPARQL in a single query.<br />For the assurance of the data concerns associated with the published data over the web, we introduce a "Data Concerns Aware Querying System".<br />A data concerns aware querying system incorporates several data concerns into a query language, thus enabling data services integration systems to handle data concerns associated with the data services. Our concerns aware querying system extends the XQuery language to make it concerns aware, with the introduction of special keywords for mentioning data concerns within the query.<br />In the last part of this thesis, we design a mashup tool on top of DeXIN. We propose a query based aggregation of multiple heterogeneous data sources by combining powerful querying features of XQuery and SPARQL with an easy interface of a mashup tool for data sources in XML and RDF. Our mashup editor allows for automatic generation of mashups with an easy to use visual interface. For the dynamic integration of heterogeneous web data sources we utilize the concept of data mashups, which uses the extension of XQuery proposed in DeXIN.<br />