Dönz, B. (2014). External semantic annotation of web databases : deep web semantic information integration and querying by mediator-based forwarding [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2014.25289
Semantische Technologien; Informationsextraktion; Mediator Basierter Datenzugriff; Datenintegration; Verteilte Abfragen; Deep Web
de
Semantic Technologies; Information Extraction; Mediated Data Access; Data Integration; Distributed Querying; Deep Web
en
Abstract:
Inhalte aus Internet-Datenbanken sind für herkömmliche Suchmaschinen nicht vollständig erreichbar und nutzbar, stellen aber mit einem Verhältnis von etwa 500:1 als "Deep Web" den weitaus größten Teil der Informationen im Internet dar. Andererseits gibt es für das Semantische Web abseits wissenschaftlicher Projekte nur wenige Inhalte obwohl entsprechende Standards für viele Bereiche existieren. Im Zuge dieser Arbeit wird die Hypothese untersucht, dass existierende Informationssysteme, die für menschliche Benutzer entwickelt wurden, mit Hilfe von externen semantischen Annotationen von Programmen interpretiert werden und mit einem auf Mediatoren basierten Ansatz auch für das Semantische Web und damit für Suchanfragen und Datenintegration zugänglich gemacht werden können. Als Basis dafür wird ein Modell für Internet-Datenbanken definiert und in zwei Domänen evaluiert: Immobilien und Gebrauchtwagen. Von diesem Modell wird anschließend der Prozess abgeleitet, der das Weiterleiten von Abfragen und Extrahieren von Ergebnissen aus modellkonformen Datenbanken erlaubt. Mit Hilfe von externen semantischen Annotationen kann der auf diesem Konzept aufbauende und im Zuge dieser Arbeit entwickelte Prototyp "Deep Web Mediator" SPARQL Abfragen (die Standardabfragesprache des Semantischen Web) transparent an Internet-Datenbanken mit herkömmlichen, für menschliche Benutzer vorgesehene Schnittstellen, weiterleiten und die Ergebnisse an den Aufrufer zurückzugeben, wie es auch native semantische Datenbanken tun. Mit Hilfe dieses Prototyps wird gezeigt, dass das Nutzen von existierenden Informationssystemen im Umfeld des Semantischen Web möglich ist und die so gewonnenen Informationen auch mit anderen Quellen und lokalen Daten verknüpft werden können.
de
The Deep Web offers approximately 500 times more information than the conventional World Wide Web, but is "hidden" behind Web forms that require some form of interaction. This makes it difficult for search engines to index the content. On the other hand, the Semantic Web is suffering from a lack of content: even if all necessary standards have been defined, only academic projects and a few early adopters have published data for the Semantic Web. This thesis investigates the use of external semantic annotations for making existing Web databases that are intended for human users accessible for programs. Using a mediator-based approach, queries can be transparently forwarded to several such sites making their content accessible for the Semantic Web. For this purpose, a model for Web databases is defined and validated in two domains: used cars and real estate. Based on this model an extraction process is derived that allows forwarding queries and extracting results from compatible systems. Using external semantic annotations that link elements of an actual website to the model, the "Deep Web Mediator" prototype developed in the course of this thesis can transform and forward SPARQL queries (the standard query language of the Semantic Web) to these sites and return information from Web databases in the same way onventional SPARQL endpoints do. A series of use cases demonstrates that this approach allows accessing the content of existing Web databases and also integrating this information with native semantic and local sources.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache