Skritek, S. (2009). Implementing a Peer Data Management System [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-36716
Peer Data Management; Peer Data Exchange; Peer Data Integration; Peer Database System; Schema Mapping
en
Abstract:
Der Begriff "Peer Data Management System" (PDMS) bezeichnet einen Ansatz um die Flexibilität von Peer-to-Peer (P2P) Systemen mit der Ausdruckskraft und klar definierten Semantik von Datenbanksystemen zu verbinden. Dabei nimmt man an, dass die Daten auf verschiedenen, unabhängigen Knoten (Peers) verteilt sind. Jeder Peer ermöglicht über ein Peer-Schema Zugriff auf seine Daten und kann - ähnlich wie bei Datenintegration ("Data Integration") und Datenaustausch ("Data Exchange") - Abbildungen fremder Peer-Schemata auf sein eigenes Schema definieren. Im Gegensatz zu Datenintegration, Datenaustausch oder Multidatenbanksystemen benötigen PDMSs jedoch kein globales Schema und somit keine zentrale Kontrollinstanz. Alle Beziehungen werden lokal zwischen jeweils zwei Peers definiert. Da dies im allgemeinen Fall dazu führen kann, dass etwa die Beantwortung einer Abfrage an ein PDMS unentscheidbar wird, wurden in den letzten Jahren verschiedene Ansätze entwickelt um die Entscheidbarkeit typischer Probleme im Bereich der Datenbanken zu erhalten. Deshalb die Topologie des P2P-Netzwerkes einzuschränken widerspricht jedoch der Idee von vollständig autonomen Peers. Eine andere Möglichkeit besteht darin, die Ausdruckskraft der Abbildungen stärker zu beschränken. Basierend auf dieser Idee schlugen De Giacomo et al.<br />2007 ein theoretisches Modell für ein PDMS vor, welches eine beliebige Topologie des P2P Netzwerkes erlaubt und sowohl den klassischen Datenaustausch als auch die klassische Datenintegration als Spezialfälle umfasst. Nach unserem Wissenstand existiert bislang keine Implementierung dieses Ansatzes. Ziel der vorliegenden Arbeit war es die theoretischen Grundlagen von PDMSs zu untersuchen und einen Prototypen nach dem vorgeschlagenen Modell zu entwickeln. Die Arbeit gibt weiters einen Überblick über alternative Ansätze für PDMSs in der Literatur, enthält eine detaillierte Beschreibung des Modells von De Giacomo et al. und beschreibt Ergebnisse des implementierten Prototypen.<br />
de
Peer Data Management Systems (PDMSs) are an approach to combine the flexibility of Peer-to-Peer (P2P) systems with the expressiveness and rich semantics of database systems. In PDMSs, data is assumed to be distributed over several autonomous peers, each of them offering (parts of) their data through its own peer schema. Similar to Data Exchange and Data Integration, every peer may define mappings between the schemas of other peers and its own schema.<br />In contrast to Data Exchange, Data Integration or Federated Databases, however, PDMSs require no global schema and therefore no global coordination to share data. Instead, all relationships are defined only between pairs of peers.<br />Unfortunately, when applying the usual semantics based on first-order logic to these mappings, several important reasoning tasks, for example query answering, become undecidable over PDMSs for general settings.<br />Therefore, several proposals have been presented in the literature how PDMSs could be restricted to maintain decidability for typical reasoning tasks in database theory. One possibility is to restrict the topology of the network implied by the mappings and to avoid certain kinds of cycles in the mappings. But this contradicts the idea that no global coordination is required in PDMSs.<br />Another possibility is to restrict the expressive power of the mappings, as suggested by Calvanese et alii. Based on this idea, in 2007, De Giacomo et al. proposed a theoretical framework that allows both an arbitrary topology of the P2P network and efficient evaluation of the main reasoning tasks in Peer Data Management (PDM).<br />Moreover it incorporates "classical" Data Exchange and Data Integration as special cases. To the best of our knowledge, this idea has not been implemented yet.<br />Since it seems to be a promising basis for further research, the main goal of this thesis was to study the theoretical background of PDM and to create a prototype implementation of this framework. This thesis also gives an overview over the approaches for PDMSs proposed in the literature, presents the approach of De Giacomo et al. in detail and reports on the implementation and first evaluation results of the prototype.<br />