Automatisiertes Verständnis von formularbasierten Webseiten durch statistische Klassifikation der Seiten und Elemente

Mager, Andreas

DC Field

Value

Language

dc.contributor.advisor

Pichler, Reinhard

dc.contributor.author

Mager, Andreas

dc.date.accessioned

2020-06-30T07:19:27Z

dc.date.issued

2008

dc.date.submitted

2008-09

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Mager, A. (2008). <i>Automatisiertes Verständnis von formularbasierten Webseiten durch statistische Klassifikation der Seiten und Elemente</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-26549</div> </div>

dc.identifier.uri

https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-26549

dc.identifier.uri

http://hdl.handle.net/20.500.12708/11175

dc.description

Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Betrachtet man die Repräsentation des Wissens, spiegelt das World Wide Web, so wie es heute existiert, sehr deutlich gesellschaftliche Eigenschaften der Personen wieder, die es erschaffen haben und es warten. Es ist nicht möglich eine bestimmte Frage an "die Menschheit" zu stellen. Genausowenig ist es möglich eine bestimmte Frage an "das Internet" zu stellen. Es ist notwendig zu wissen, welche Menschen oder welche Gruppe von Menschen beziehungsweise welche Gruppe von Webseiten man fragen muss, um eine gewünschte Antwort zu erhalten.<br />Dazu kommen noch die Sprache und die Form, in der die Fragen gestellt werden müssen, um vom Gegenüber verstanden zu werden. In dieser Arbeit wird ein Weg beschrieben um diese unstrukturierten Datenbanken auf ein strukturiertes Domänenmodell abzubilden. Die Arbeitsschritte sind das Klassifizieren der Webseiten, Aufteilen in Formulare, Klassifizieren der Formulare, Aufteilen in Elemente und schließlich das Klassifizieren der Elemente.<br />Getestet wurden mehrere etablierte Textklassifikationsalgorithmen. Unter anderen der Bayes-Algorithmus, er wird auch in der Software "Spamassassin" zur Spamerkennung verwendet.<br />Mit verschiedenen Vorfiltern wurde untersucht ob es möglich ist das Ergebnis der im Hinblick auf das Klassifizieren von reinen Texten ohne Strukturinformation entwickelten Klassifikationsalgorithmen durch das Hinzufügen (oder Weglassen) von Strukturinformationen in einer für diese Algorithmen nutzbaren Form zu verbessern.<br />Um die Algorithmen und Vorfilter vergleichen zu können wurden die Qualitätsmerkmale Precision, Recall, Spezifität, Fallout und F-Maß ermittelt. Der nächste Schritt ist die Integration dieses Annotierungssystems als Modul in das Projekt MetaMorph, welches gerade am Institut für Informationssysteme, Arbeitsgruppe für Datenbanken und Artificial Intelligence, gemeinsam mit dem Spin-Off Lixto Software GmbH. entwickelt wird. Diese Arbeit stellt eine Basis für eine Reihe weiterer Projekte dar. Bis das Internet, viel mehr das World Wide Web, zu einem Semantic-Web geworden ist, wird noch sehr viel Arbeit notwendig sein.<br />Annotierungssysteme, wie das in dieser Arbeit beschriebene, sind eine Möglichkeit um Eigenschaften eines Semantic-Web schon jetzt zu erhalten.<br />

dc.language

Deutsch

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Informationsextraktion

dc.subject

Semantisches Web

dc.subject

Webformulare

dc.subject

Textklassifikation

dc.title

Automatisiertes Verständnis von formularbasierten Webseiten durch statistische Klassifikation der Seiten und Elemente

dc.title.alternative

Automatic understanding of formbased websites by document and element classification

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Andreas Mager

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E184 - Institut für Informationssysteme

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC05038573

dc.description.numberOfPages

117

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-26549

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.orcid

0000-0002-1760-122X

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

TU Wien

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.09 MB)

In Copyright

Show simple item record

Page view(s)

343

checked on Dec 1, 2023

Download(s)

151

checked on Dec 1, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM