Kargl, H. (2008). Smart Matching - an approach for the automatic generation of executable schema mappings [Dissertation, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/179759
Schema Mapping; Information Integration; Schema Heterogeneity; Schema Matching; Machine Learning; Self-Tuning System
en
Abstract:
Informationsintegration gibt es schon sehr lange in den Computerwissenschaften. Seine Ursprünge liegen in der Integration von Datenbanksystemen in den frühen achziger Jahren des zwanzigsten Jahrhunderts. Mit dem Aufkommen des Semantik-Web und den damit verbundenen Ontologien, stieg der Bedarf für das automatisierte integrieren von informationen. Informationsintegration im allgemeinen, und das automatische integrieren von Infromationen im speziellen, ist eine große und herausfordernde disziplin. Eine der größten Herausforderungen ist die Bewältigung von semantischen und schema heterogenitäten. Das manuelle Finden von semantisch überlappenden teile eines Schemas ist eine langwierige Arbeit. Das erstellen von transformationsprogrammen, basierend auf diesen semantischen überlappungen, ist oft sehr arbeitsintensiev, fehleranfällig und sehr mühsam. Eine vielzahl von Ansätzen wurden bereits entwickelt um diese Arbeit zu automatisieren. Dennoch konnten noch nicht alle damitverbundenen Probleme gelöst werden. Matching tools werden verwendet um ähnlichkeiten zwischen Schemata automatisch zu finden. Das Ergebnis dieser Tools sind Korrespondenzen zwischen schema Elementen. Diese Korrespondenzen können genutz werden um transformationscode zu schreiebn. Diese Korrespondenzen sind allerdings lediglich vorschläge und müssen manuell überprüft werden. Daher kann die Vollstädigkeit und die Korrektheit der Korrespondenzen nicht gewährleistet werden. Weiters können diese einfachen korrespondenzen nicht herangezogen werden um automatisch transformationcode zu generieren. Verschiedene Transformationssprachen wurden im laufe der Zeit entwickelt um Schemainstanzen zu transformieren. Um vorhandenen Transformationscode wieder zu verwenden muss dieser allerdings immer wieder angepasst werden. Nach bestem Wissen und Gewissen ist uns keine Transformationssprache bekannt die wiederverwendbare Transformationpattern zur verfügung stellt um sie auf ähnliche schema Häterogenitätsprobleme anzuwenden. Diese Arbeit beschäftigt sich mit dem Heterogenitätsproblem, sowie dem fehlen von wiederverwendbaren Transformationscode, und der Anforderung komplette und korrekte Korrespondenzen zwischen Schemate zu erstellen. Die ersten beiden Probleme werden durch eine deklarativem und ausführbare mapping Sprache gelöst welche den Kern von Schemaheterogenitäten überbrücken kann. Im gegensatz zu einfachen korrespondenzen können mit dieser Mappingsprache mehr einschränkende Bedingungen definiert werden. Basierend auf diesen ausdrucksstärkeren Mappings kann automatisch transformationscode abgeleitet werden. Das dritte Problem wird durch einen selbstregulierenden, iterativen matching Ansatz gelöst. Dieser Ansatz basiert auf der entwickelten Mappingsprache. Mappingstrategien sind für das Anwenden von Mappingoperatoren verantwortlich. Die Vollständigkeit und Korrektheit dieser Mappingvorschläge wird für eine menge von bereitgestellten schema instanzen sichergestellt. Die instanzen werden verwendet um die automatisch gefundenen Mappings zu evaluieren. Der prototyp dieses selbstregulierenden Ansatzes wird SmartMatcher genannt.
Information integration has a long history in computer science. It has started with the integration of database schemas in the early eighties. With the rise of the semantic web and the emerging abundance of ontologies, the need for an automatic information integration increased further. Information integration in general and automatic information integration in particular is a huge and challenging research area. One of the main problems is handling semantic heterogeneity and schema heterogeneity. Manually finding the semantically overlapping parts of schemas is a tedious problem. Furthermore, writing integration code is a labor intensive, error-prone, and cumbersome task. A lot of approaches have already been developed to automate this work. Nevertheless, not all integration problems have been solved so far. Matching tools are used to automatically find similarities between schemas. The results of these tools are simple correspondences. Based on these correspondences, one is able to write integration code. However, the simple correspondences are just suggestions and must be verified manually. Hence, the completeness and correctness of the resulting correspondences may not be assured. Furthermore, it is not possible to automatically derive transformation code for all found simple correspondences. In order to write transformation code, different kinds of transformation languages have been developed. The produced code is too customized for a specific type of schema to be easily reused for other integration problems. Hence, to the best of our knowledge, there exists no transformation language to develop reusable transformation patterns for different kinds of heterogeneity problems. This thesis addresses the heterogeneity problems, as well as the lack of reusable transformation code, and the need for establishing correct and complete correspondences between schemas. The first two problems are tackled by developing an executable declarative mapping language, which is able to cope with the core of schema heterogeneity problems. In contrast to simple correspondences, this mapping language is able to express more constraints. Based on these more expressive mappings, the execution code is automatically derived. The third problem is tackled by a self-tuning, iterative matching approach. This approach is based on the developed mapping language. Mapping strategies are responsible for the application of mapping operators. Based on the executable mapping suggestion, completeness and correctness are achieved for a provided set of instance models by a test-driven approach. These instance models are used to evaluate the produced mapping model. The prototype of this self-tuning approach is called SmartMatcher.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache