DC FieldValueLanguage
dc.contributor.advisorRauber, Andreas-
dc.contributor.authorWachter, Bernhard-
dc.date.accessioned2020-06-30T07:09:20Z-
dc.date.issued2008-
dc.date.submitted2008-07-
dc.identifier.urihttps://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-24790-
dc.identifier.urihttp://hdl.handle.net/20.500.12708/11131-
dc.descriptionAbweichender Titel laut Übersetzung der Verfasserin/des Verfassers-
dc.descriptionZsfassung in engl. Sprache-
dc.description.abstractBei der Web-Archivierung werden Web-Dokumente gesammelt und dauerhaft abgelegt. Die entstehen Archive wachsen rasant und enthalten auch sensitive Daten. Um Missbrauch vorzubeugen müssen sensitive Daten identifiziert und gegen unbefugte Zugriffe gesichert werden. Dadurch werden Anwendungsfälle denkbar in welchen auf Basis von sensitiven Daten Auswertungen vorgenommen werden ohne dabei die Daten selbst preis zugeben. Bei der Genre-Analyse werden Web-Dokumente aufgrund ihrer Form sowie des Stils einer Seite unabhängig vom eigentlichen Thema klassifiziert. Zielsetzung dieser Arbeit ist es, diese Methode dahingehend zu erweitern, dass es einem Archivierungssystem von Web-Dokumenten möglich ist, private und öffentliche Elemente von Web-Dokumenten unterscheiden zu können.<br />Bisherige Ansätze in diesem Bereich agieren ausschließlich auf Dokumentenebene. Web-Dokumente enthalten jedoch häufig mehrere unterschiedliche Genres. Diese Arbeit entwickelt einen Ansatz zur Erkennung von zusammengehörenden Textsegmenten, welcher Absätze und gegebenenfalls damit verbundene Genre- Übergänge erkennt. Darauf aufbauend wird ein Ansatz für die Klassifizierung von privaten und öffentlichen Elementen von Web-Dokumenten auf Dokumenten- und Absatzebene vorgestellt.<br />de
dc.description.abstractWeb archiving is the process of collecting and preserving web documents. The massive archives are rapidly growing and contain sensitive data. To prevent abuse it is important to identify sensitive data and restrict access to it. This also allows use cases where sensitive data are used for analysis without revealing them. The purpose of the genre-analysis is to classify a web-document based on its form and its style, independently of the underlying topic. The aim of this paper is to extend this method for usage within a web archive. This extension will allow distinguishing private from public elements within a web-document. Traditional approaches only allow operating on document-level. But especially web-documents often contain multiple genres within a single document. Therefore an approach is developed which allows the recognition of text segments and genre transitions.<br />Based on this paragraph splitter a classifier for differing private from public elements of a web document is developed. This system may operate on document-level as well as on paragraph-level.en
dc.formatX, 88 Bl.-
dc.languageDeutsch-
dc.language.isode-
dc.subjectKlassifizierungde
dc.subjectWebde
dc.subjectPrivatsphärede
dc.subjectArchivde
dc.subjectclassificationen
dc.subjectweben
dc.subjectprivacyen
dc.subjectarchiveen
dc.titleKlassifizierung von Web-Dokumentende
dc.title.alternativeClassification of web-documentsen
dc.typeThesisen
dc.typeHochschulschriftde
tuw.publication.orgunitE188 - Institut für Softwaretechnik und Interaktive Systeme-
dc.type.qualificationlevelDiploma-
dc.identifier.libraryidAC05038226-
dc.description.numberOfPages88-
dc.identifier.urnurn:nbn:at:at-ubtuw:1-24790-
dc.thesistypeMasterarbeitde
dc.thesistypeMaster Thesisen
item.openairetypeThesis-
item.openairetypeHochschulschrift-
item.openaccessfulltextOpen Access-
item.languageiso639-1de-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.grantfulltextopen-
item.fulltextwith Fulltext-
item.cerifentitytypePublications-
item.cerifentitytypePublications-
Appears in Collections:Thesis

Files in this item:


Page view(s)

9
checked on Jul 29, 2021

Download(s)

96
checked on Jul 29, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.