<div class="csl-bib-body">
<div class="csl-entry">Pollak, B. (2007). <i>Functional semantic analysis of Web pages on the visual layer : the REDEVILA system</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/186354</div>
</div>
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/186354
-
dc.description
Zsfassung in dt. Sprache
-
dc.description.abstract
Diese Diplomarbeit ist durch die Beobachtung motiviert, daß Datensätze auf Webseiten nicht nur durch den semantischen Wortinhalt strukturiert werden, sondern vielmehr durch eine visuell implizierte Hierarchie. Ein funktionierendes Modell dieser visuellen Hierarchie kann herkömmlichen Ansätzen zur automatischen Informationsextraktion dabei helfen, sowohl domänenunabhängiger als auch robuster gegenüber Änderungen im HTML Syntax zu werden, da die visuelle Repräsentation von Informationsinhalten auf Webseiten eine gewisse Beständigkeit aufweisen muss, um von Menschen verstanden zu werden. Wir bezeichnen diese visuelle Ebene als Functional Level, um die funktionale Unterstützung von Menschen bei der visuellen Informationsstrukturierung anzudeuten.<br />Diese Diplomarbeit gibt zuerst einen detaillierten Überblick über (visuelle) Dokumentenanalyse und entwickelt ein solches Functional Level Record Detection System mit dem Namen REDEVILA (REcord DEtection on the VIsual LAyer). Der Zugriff auf die visuelle Ebene wird durch das Überlagern von Webseiten mit einem multi-topologischen Gitter ermöglicht, das eine effiziente Bestimmung von räumlichen Beziehungen einzelner Datensätze oder Webinhalte gestattet. Das System ist prinzipiell unabhängig von der Inhaltsdomäne so lange die Layout Hierarchie der Webseite hauptsächlich auf generellen topologischen und geometrischen Eigenschaften, wie der Schriftgröße, der Distanz und der Einrückung basiert, und nicht auf Farbeigenschaften oder Wortsemantik.<br />Außerdem entwickeln wir einen neuen diagonalen Ordnungsansatz von Webinhalten zur Erreichung einer "natürlicheren" bzw. intuitiveren Lesereihenfolge und demonstrieren das Konzept und die Probleme für die Erkennung von Einzeldatensätzen auf visueller Basis. Für die experimentelle Verifizierung haben wir Webseiten von vier verschiedenen Domänen gewählt (Blogs, Suchergebnisse, Personal Homepages und Online Zeitungen), um die prinzipielle Unabhängigkeit von der Inhaltsdomäne zu zeigen. Die Experimente wurden mit 85 Webseiten durchgeführt und erreichten ein gutes generelles Ergebnis. Wir schlussfolgern, daß der visuelle Ansatz ein noch großes ungenütztes Potential besitzt, die Performance und Robustheit sowie die Generalisierungsfähigkeit traditioneller Wrappersysteme zu erhöhen und damit einen weiteren Schritt in Richtung "generic web wrapping" liefert.<br />
de
dc.description.abstract
This masters thesis is motivated by the fact that data records on web pages are structured not only by word content but also by an implied visual hierarchy. A model of this visual hierarchy can greatly support automatic information extraction approaches become more domain independent and robust against variations of HTML syntax changes because the representation of information on the visual layer has to remain rather constant so as to remain understandable by humans. We refer to this visual layer as functional level which expresses the functional support for humans when structuring information visually. This masters thesis first gives a thorough literature overview on (visual) document analysis and then presents such a functional level record detection system named REDEVILA (REcord DEtection on the VIsual LAyer). The approach works by superimposing a multi-topological grid onto the visual layer of web pages serving as an efficient spatial reasoning data structure for detecting the functional semantics between data items or data records. The system is principally domain independent as long as the layout hierarchy provided by the web page mainly depends on general topological and geometrical characteristics such as font size, distance and indention and not on color properties or word semantics. We further propose a novel diagonal ordering scheme to obtain a more "natural" or human-intuitive reading-order and demonstrate the concept and problems of the visual based detection of single records. For the experimental evaluation we selected web pages from four different domains (blogs, search results, personal homepages and online newspapers) to show the basic domain independence of our system. Experiments were performed on 85 web pages and achieved a fair overall performance. We conclude that, while in its early stages, the visual approach has the potential to significantly improve the performance and robustness of traditional wrapper systems to induce a higher level of generalization and represent a next step towards generic web wrapping.<br />
en
dc.language
English
-
dc.language.iso
en
-
dc.subject
Datenextraktion
de
dc.subject
Web Data Mining
de
dc.subject
Dokumentenanalyse
de
dc.subject
Visuelle Webseiten Analyse
de
dc.subject
Segmentierung
de
dc.subject
Datensatzerkennung
de
dc.subject
Wrapper
de
dc.subject
Generic Web Wrapping
de
dc.subject
Data Extraction
en
dc.subject
Web Data Mining
en
dc.subject
Document Analysis
en
dc.subject
Visual Webpage Analysis
en
dc.subject
Segmentation
en
dc.subject
Record Detection
en
dc.subject
Wrapper
en
dc.subject
Generic Web Wrapping
en
dc.title
Functional semantic analysis of Web pages on the visual layer : the REDEVILA system