Automatisiertes Verständnis von formularbasierten Webseiten durch statistische Klassifikation der Seiten und Elemente

Mager, Andreas

Record link:

https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-26549
http://hdl.handle.net/20.500.12708/11175

Title:

Automatisiertes Verständnis von formularbasierten Webseiten durch statistische Klassifikation der Seiten und Elemente

Citation:

Mager, A. (2008). Automatisiertes Verständnis von formularbasierten Webseiten durch statistische Klassifikation der Seiten und Elemente [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-26549

CatalogPlus:

AC05038573

Publication Type:

Thesis - Diplomarbeit

Language:

German

Authors:

Mager, Andreas

Advisor:

Pichler, Reinhard

Organisational Unit:

E184 - Institut für Informationssysteme

Date (published):

2008

Number of Pages:

117

Keywords:

Informationsextraktion; Semantisches Web; Webformulare; Textklassifikation

Abstract:

Betrachtet man die Repräsentation des Wissens, spiegelt das World Wide Web, so wie es heute existiert, sehr deutlich gesellschaftliche Eigenschaften der Personen wieder, die es erschaffen haben und es warten. Es ist nicht möglich eine bestimmte Frage an "die Menschheit" zu stellen. Genausowenig ist es möglich eine bestimmte Frage an "das Internet" zu stellen. Es ist notwendig zu wissen, welche Menschen oder welche Gruppe von Menschen beziehungsweise welche Gruppe von Webseiten man fragen muss, um eine gewünschte Antwort zu erhalten. Dazu kommen noch die Sprache und die Form, in der die Fragen gestellt werden müssen, um vom Gegenüber verstanden zu werden. In dieser Arbeit wird ein Weg beschrieben um diese unstrukturierten Datenbanken auf ein strukturiertes Domänenmodell abzubilden. Die Arbeitsschritte sind das Klassifizieren der Webseiten, Aufteilen in Formulare, Klassifizieren der Formulare, Aufteilen in Elemente und schließlich das Klassifizieren der Elemente. Getestet wurden mehrere etablierte Textklassifikationsalgorithmen. Unter anderen der Bayes-Algorithmus, er wird auch in der Software "Spamassassin" zur Spamerkennung verwendet. Mit verschiedenen Vorfiltern wurde untersucht ob es möglich ist das Ergebnis der im Hinblick auf das Klassifizieren von reinen Texten ohne Strukturinformation entwickelten Klassifikationsalgorithmen durch das Hinzufügen (oder Weglassen) von Strukturinformationen in einer für diese Algorithmen nutzbaren Form zu verbessern. Um die Algorithmen und Vorfilter vergleichen zu können wurden die Qualitätsmerkmale Precision, Recall, Spezifität, Fallout und F-Maß ermittelt. Der nächste Schritt ist die Integration dieses Annotierungssystems als Modul in das Projekt MetaMorph, welches gerade am Institut für Informationssysteme, Arbeitsgruppe für Datenbanken und Artificial Intelligence, gemeinsam mit dem Spin-Off Lixto Software GmbH. entwickelt wird. Diese Arbeit stellt eine Basis für eine Reihe weiterer Projekte dar. Bis das Internet, viel mehr das World Wide Web, zu einem Semantic-Web geworden ist, wird noch sehr viel Arbeit notwendig sein. Annotierungssysteme, wie das in dieser Arbeit beschriebene, sind eine Möglichkeit um Eigenschaften eines Semantic-Web schon jetzt zu erhalten.

Additional information:

Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis