Functional semantic analysis of Web pages on the visual layer : the REDEVILA system

Pollak, Bernhard

DC Field

Value

Language

dc.contributor.advisor

Gottlob, Georg

dc.contributor.author

Pollak, Bernhard

dc.date.accessioned

2023-06-20T00:33:34Z

dc.date.issued

2007

dc.date.submitted

2008-01

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Pollak, B. (2007). <i>Functional semantic analysis of Web pages on the visual layer : the REDEVILA system</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/186354</div> </div>

dc.identifier.uri

http://hdl.handle.net/20.500.12708/186354

dc.description

Zsfassung in dt. Sprache

dc.description.abstract

Diese Diplomarbeit ist durch die Beobachtung motiviert, daß Datensätze auf Webseiten nicht nur durch den semantischen Wortinhalt strukturiert werden, sondern vielmehr durch eine visuell implizierte Hierarchie. Ein funktionierendes Modell dieser visuellen Hierarchie kann herkömmlichen Ansätzen zur automatischen Informationsextraktion dabei helfen, sowohl domänenunabhängiger als auch robuster gegenüber Änderungen im HTML Syntax zu werden, da die visuelle Repräsentation von Informationsinhalten auf Webseiten eine gewisse Beständigkeit aufweisen muss, um von Menschen verstanden zu werden. Wir bezeichnen diese visuelle Ebene als Functional Level, um die funktionale Unterstützung von Menschen bei der visuellen Informationsstrukturierung anzudeuten.<br />Diese Diplomarbeit gibt zuerst einen detaillierten Überblick über (visuelle) Dokumentenanalyse und entwickelt ein solches Functional Level Record Detection System mit dem Namen REDEVILA (REcord DEtection on the VIsual LAyer). Der Zugriff auf die visuelle Ebene wird durch das Überlagern von Webseiten mit einem multi-topologischen Gitter ermöglicht, das eine effiziente Bestimmung von räumlichen Beziehungen einzelner Datensätze oder Webinhalte gestattet. Das System ist prinzipiell unabhängig von der Inhaltsdomäne so lange die Layout Hierarchie der Webseite hauptsächlich auf generellen topologischen und geometrischen Eigenschaften, wie der Schriftgröße, der Distanz und der Einrückung basiert, und nicht auf Farbeigenschaften oder Wortsemantik.<br />Außerdem entwickeln wir einen neuen diagonalen Ordnungsansatz von Webinhalten zur Erreichung einer "natürlicheren" bzw. intuitiveren Lesereihenfolge und demonstrieren das Konzept und die Probleme für die Erkennung von Einzeldatensätzen auf visueller Basis. Für die experimentelle Verifizierung haben wir Webseiten von vier verschiedenen Domänen gewählt (Blogs, Suchergebnisse, Personal Homepages und Online Zeitungen), um die prinzipielle Unabhängigkeit von der Inhaltsdomäne zu zeigen. Die Experimente wurden mit 85 Webseiten durchgeführt und erreichten ein gutes generelles Ergebnis. Wir schlussfolgern, daß der visuelle Ansatz ein noch großes ungenütztes Potential besitzt, die Performance und Robustheit sowie die Generalisierungsfähigkeit traditioneller Wrappersysteme zu erhöhen und damit einen weiteren Schritt in Richtung "generic web wrapping" liefert.<br />

dc.description.abstract

This masters thesis is motivated by the fact that data records on web pages are structured not only by word content but also by an implied visual hierarchy. A model of this visual hierarchy can greatly support automatic information extraction approaches become more domain independent and robust against variations of HTML syntax changes because the representation of information on the visual layer has to remain rather constant so as to remain understandable by humans. We refer to this visual layer as functional level which expresses the functional support for humans when structuring information visually. This masters thesis first gives a thorough literature overview on (visual) document analysis and then presents such a functional level record detection system named REDEVILA (REcord DEtection on the VIsual LAyer). The approach works by superimposing a multi-topological grid onto the visual layer of web pages serving as an efficient spatial reasoning data structure for detecting the functional semantics between data items or data records. The system is principally domain independent as long as the layout hierarchy provided by the web page mainly depends on general topological and geometrical characteristics such as font size, distance and indention and not on color properties or word semantics. We further propose a novel diagonal ordering scheme to obtain a more "natural" or human-intuitive reading-order and demonstrate the concept and problems of the visual based detection of single records. For the experimental evaluation we selected web pages from four different domains (blogs, search results, personal homepages and online newspapers) to show the basic domain independence of our system. Experiments were performed on 85 web pages and achieved a fair overall performance. We conclude that, while in its early stages, the visual approach has the potential to significantly improve the performance and robustness of traditional wrapper systems to induce a higher level of generalization and represent a next step towards generic web wrapping.<br />

dc.language

English

dc.language.iso

dc.subject

Datenextraktion

dc.subject

Web Data Mining

dc.subject

Dokumentenanalyse

dc.subject

Visuelle Webseiten Analyse

dc.subject

Segmentierung

dc.subject

Datensatzerkennung

dc.subject

Wrapper

dc.subject

Generic Web Wrapping

dc.subject

Data Extraction

dc.subject

Web Data Mining

dc.subject

Document Analysis

dc.subject

Visual Webpage Analysis

dc.subject

Segmentation

dc.subject

Record Detection

dc.subject

Wrapper

dc.subject

Generic Web Wrapping

dc.title

Functional semantic analysis of Web pages on the visual layer : the REDEVILA system

dc.type

Thesis

dc.type

Hochschulschrift

dc.contributor.affiliation

TU Wien, Österreich

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E184 - Institut für Informationssysteme

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC05036335

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

tuw.advisor.staffStatus

staff

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

none

item.fulltext

no Fulltext

item.cerifentitytype

Publications

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

Appears in Collections:

Thesis

Show simple item record

Page view(s)

141

checked on Nov 23, 2023

Google Scholar^TM

Check

Page view(s)

Google ScholarTM

Google Scholar^TM