Pollak, B. (2007). Functional semantic analysis of Web pages on the visual layer : the REDEVILA system [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/186354
Datenextraktion; Web Data Mining; Dokumentenanalyse; Visuelle Webseiten Analyse; Segmentierung; Datensatzerkennung; Wrapper; Generic Web Wrapping
de
Data Extraction; Web Data Mining; Document Analysis; Visual Webpage Analysis; Segmentation; Record Detection; Wrapper; Generic Web Wrapping
en
Abstract:
Diese Diplomarbeit ist durch die Beobachtung motiviert, daß Datensätze auf Webseiten nicht nur durch den semantischen Wortinhalt strukturiert werden, sondern vielmehr durch eine visuell implizierte Hierarchie. Ein funktionierendes Modell dieser visuellen Hierarchie kann herkömmlichen Ansätzen zur automatischen Informationsextraktion dabei helfen, sowohl domänenunabhängiger als auch robuster gegenüber Änderungen im HTML Syntax zu werden, da die visuelle Repräsentation von Informationsinhalten auf Webseiten eine gewisse Beständigkeit aufweisen muss, um von Menschen verstanden zu werden. Wir bezeichnen diese visuelle Ebene als Functional Level, um die funktionale Unterstützung von Menschen bei der visuellen Informationsstrukturierung anzudeuten.<br />Diese Diplomarbeit gibt zuerst einen detaillierten Überblick über (visuelle) Dokumentenanalyse und entwickelt ein solches Functional Level Record Detection System mit dem Namen REDEVILA (REcord DEtection on the VIsual LAyer). Der Zugriff auf die visuelle Ebene wird durch das Überlagern von Webseiten mit einem multi-topologischen Gitter ermöglicht, das eine effiziente Bestimmung von räumlichen Beziehungen einzelner Datensätze oder Webinhalte gestattet. Das System ist prinzipiell unabhängig von der Inhaltsdomäne so lange die Layout Hierarchie der Webseite hauptsächlich auf generellen topologischen und geometrischen Eigenschaften, wie der Schriftgröße, der Distanz und der Einrückung basiert, und nicht auf Farbeigenschaften oder Wortsemantik.<br />Außerdem entwickeln wir einen neuen diagonalen Ordnungsansatz von Webinhalten zur Erreichung einer "natürlicheren" bzw. intuitiveren Lesereihenfolge und demonstrieren das Konzept und die Probleme für die Erkennung von Einzeldatensätzen auf visueller Basis. Für die experimentelle Verifizierung haben wir Webseiten von vier verschiedenen Domänen gewählt (Blogs, Suchergebnisse, Personal Homepages und Online Zeitungen), um die prinzipielle Unabhängigkeit von der Inhaltsdomäne zu zeigen. Die Experimente wurden mit 85 Webseiten durchgeführt und erreichten ein gutes generelles Ergebnis. Wir schlussfolgern, daß der visuelle Ansatz ein noch großes ungenütztes Potential besitzt, die Performance und Robustheit sowie die Generalisierungsfähigkeit traditioneller Wrappersysteme zu erhöhen und damit einen weiteren Schritt in Richtung "generic web wrapping" liefert.<br />
de
This masters thesis is motivated by the fact that data records on web pages are structured not only by word content but also by an implied visual hierarchy. A model of this visual hierarchy can greatly support automatic information extraction approaches become more domain independent and robust against variations of HTML syntax changes because the representation of information on the visual layer has to remain rather constant so as to remain understandable by humans. We refer to this visual layer as functional level which expresses the functional support for humans when structuring information visually. This masters thesis first gives a thorough literature overview on (visual) document analysis and then presents such a functional level record detection system named REDEVILA (REcord DEtection on the VIsual LAyer). The approach works by superimposing a multi-topological grid onto the visual layer of web pages serving as an efficient spatial reasoning data structure for detecting the functional semantics between data items or data records. The system is principally domain independent as long as the layout hierarchy provided by the web page mainly depends on general topological and geometrical characteristics such as font size, distance and indention and not on color properties or word semantics. We further propose a novel diagonal ordering scheme to obtain a more "natural" or human-intuitive reading-order and demonstrate the concept and problems of the visual based detection of single records. For the experimental evaluation we selected web pages from four different domains (blogs, search results, personal homepages and online newspapers) to show the basic domain independence of our system. Experiments were performed on 85 web pages and achieved a fair overall performance. We conclude that, while in its early stages, the visual approach has the potential to significantly improve the performance and robustness of traditional wrapper systems to induce a higher level of generalization and represent a next step towards generic web wrapping.<br />