dc.description.abstract
In modernen Wirtschaftsunternehmen wird häufig eine integrierte Anwendung entwickelt, um einheitlichen Zugriff auf mehrere bestehende Informationssysteme zu bieten, die innerhalb oder außerhalb des Unternehmens laufen. Datenintegration ist eine tiefgreifende Herausforderung dieser Anwendungen, da Abfragen über mehrere autonome und heterogene Datenquellen reichen.<br />Die Integration solch unterschiedlicher Informationssysteme ist eine anspruchsvolle Aufgabe, insbesondere wenn verschiedene Anwendungen unterschiedliche Datenformate und Abfragesprachen verwenden, die nicht untereinander kompatibel sind.<br />Mit der wachsenden Popularität von Web 2.0-Technologien und der Verfügbarkeit riesiger Mengen an Daten im Web, haben sich die Anforderungen für die Datenintegration, im Vergleich zu traditionellen Ansätzen der Datenbankintegration, geändert. Der große Umfang an Web-Datenquellen hat nicht nur zu einem hohen Maß an Verteilung, Heterogenität, sowie unterschiedlichen Datenformaten und Abfragesprachen geführt, sondern darüber hinaus sind die Daten auch mit zusätzlichen Dateneigenschaften verbunden, wie zum Beispiel Datenschutz, Lizenzierung, Kosten, Qualität der Daten, etc. Daher müssen die Datenintegration-Tools nicht nur einen optimalen Weg zur Verfügung stellen, um die Heterogenität der Datenformate und Abfragesprachen zu reduzieren, sondern darüber hinaus sollten auch die verschiedenen zusätzlichen Dateneigenschaften beibehalten werden, wenn die Daten veröffentlicht oder genutzt werden.<br />Weiters sollte die Auswahl der Datendienste und die Selektion der Daten diese Dateneigenschaften berücksichtigen.<br />Das Ziel dieser Dissertation ist es, bessere Mittel bereitzustellen zur einfachen und dynamischen Integration von verteilten heterogenen Web-Datenquellen (insbesondere XML und RDFDatenquellen), in einer Weise, die es dem Benutzer vereinfachen, Datenintegrationsapplikationen zu erstellen, während gleichzeitig alle Dateneigenschaften mit den damit verbundenen Daten sichergestellt werden.<br />Das Hauptthema dieser Arbeit ist der verteilten heterogenen Datenintegration für Web- Datenquellen gewidmet. Um die Herausforderung der XML und RDF-Datenintegration zu bewältigen, schlagen wir "DeXIN (Distributed extended XQuery for heterogeneous Data Integration)", ein erweiterbares Framework für die verteilte Verarbeitung von Abfragen über heterogene, verteilte und autonome Datenquellen vor. DeXIN verwendet ein Datenformat als Grundlage (das sogenannte "aggregation model") und erweitert die entsprechende Abfragesprache, um Abfragen über heterogene Datenquellen in ihren jeweiligen Abfragesprachen durchzuführen. Wir stellen eine Erweiterung von XQuery vor, welche die volle SPARQL Sprache abdeckt und die dezentrale Ausführung von XQuery als auch SPARQL in einer einzigen Abfrage unterstützt.<br />Für die Sicherstellung der Dateneigenschaften, die mit den veröffentlichten Daten im Web verbunden sind, führen wir ein "Data Concerns Aware Query System" ein.<br />Dieses System vereinigt mehrere Dateneigenschaften in eine Abfragesprache, wodurch es DatenserviceIntegrationssystemen erlaubt wird, Dateneigenschaften, die mit den Datendiensten verbunden sind, zu behandeln.<br />Unser "Data Concerns Aware Query System" erweitert die XQuery-Sprache, um Dateneigenschaften zu berücksichten. Dafür werden spezielle Schlüsselwörter eingeführt, um Dateneigenschaften innerhalb der Abfrage auszudrücken.<br />Im letzten Teil dieser Arbeit entwerfen wir ein Mashup-Tool, welches auf DeXIN aufbaut.<br />Wir präsentieren eine Abfrage-basierte Aggregation von mehreren heterogenen Datenquellen durch die Kombination von vielseitigen Abfrage-Features von XQuery und SPARQL mit einer intuitiven Benutzerschnittstelle eines Mashup-Tools für Datenquellen in XML und RDF. Unser Mashup-Editor ermöglicht die automatische Generierung von Mashups mit einer einfach zu bedienenden visuellen Schnittstelle. Wir nutzen das Konzept der Daten-Mashups, um dynamisch heterogene Web-Datenquellen zu integrieren, indem wir die in DeXIN vorgeschlagene Erweiterung von XQuery benutzen.<br />
de