Title: Automatisiertes Verständnis von formularbasierten Webseiten durch statistische Klassifikation der Seiten und Elemente
Other Titles: Automatic understanding of formbased websites by document and element classification
Language: Deutsch
Authors: Mager, Andreas 
Qualification level: Diploma
Advisor: Pichler, Reinhard 
Issue Date: 2008
Number of Pages: 117
Qualification level: Diploma
Abstract: 
Betrachtet man die Repräsentation des Wissens, spiegelt das World Wide Web, so wie es heute existiert, sehr deutlich gesellschaftliche Eigenschaften der Personen wieder, die es erschaffen haben und es warten. Es ist nicht möglich eine bestimmte Frage an "die Menschheit" zu stellen. Genausowenig ist es möglich eine bestimmte Frage an "das Internet" zu stellen. Es ist notwendig zu wissen, welche Menschen oder welche Gruppe von Menschen beziehungsweise welche Gruppe von Webseiten man fragen muss, um eine gewünschte Antwort zu erhalten.
Dazu kommen noch die Sprache und die Form, in der die Fragen gestellt werden müssen, um vom Gegenüber verstanden zu werden. In dieser Arbeit wird ein Weg beschrieben um diese unstrukturierten Datenbanken auf ein strukturiertes Domänenmodell abzubilden. Die Arbeitsschritte sind das Klassifizieren der Webseiten, Aufteilen in Formulare, Klassifizieren der Formulare, Aufteilen in Elemente und schließlich das Klassifizieren der Elemente.
Getestet wurden mehrere etablierte Textklassifikationsalgorithmen. Unter anderen der Bayes-Algorithmus, er wird auch in der Software "Spamassassin" zur Spamerkennung verwendet.
Mit verschiedenen Vorfiltern wurde untersucht ob es möglich ist das Ergebnis der im Hinblick auf das Klassifizieren von reinen Texten ohne Strukturinformation entwickelten Klassifikationsalgorithmen durch das Hinzufügen (oder Weglassen) von Strukturinformationen in einer für diese Algorithmen nutzbaren Form zu verbessern.
Um die Algorithmen und Vorfilter vergleichen zu können wurden die Qualitätsmerkmale Precision, Recall, Spezifität, Fallout und F-Maß ermittelt. Der nächste Schritt ist die Integration dieses Annotierungssystems als Modul in das Projekt MetaMorph, welches gerade am Institut für Informationssysteme, Arbeitsgruppe für Datenbanken und Artificial Intelligence, gemeinsam mit dem Spin-Off Lixto Software GmbH. entwickelt wird. Diese Arbeit stellt eine Basis für eine Reihe weiterer Projekte dar. Bis das Internet, viel mehr das World Wide Web, zu einem Semantic-Web geworden ist, wird noch sehr viel Arbeit notwendig sein.
Annotierungssysteme, wie das in dieser Arbeit beschriebene, sind eine Möglichkeit um Eigenschaften eines Semantic-Web schon jetzt zu erhalten.
Keywords: Informationsextraktion; Semantisches Web; Webformulare; Textklassifikation
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-26549
http://hdl.handle.net/20.500.12708/11175
Library ID: AC05038573
Organisation: E184 - Institut für Informationssysteme 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

Show full item record

Page view(s)

10
checked on May 21, 2021

Download(s)

66
checked on May 21, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.