Schneider, D. (2015). Intrinsische Plagiatserkennung durch stilometrische Clusteranalyse [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.25561
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2015
-
Number of Pages:
91
-
Keywords:
Stilometrie
de
Stylometrics
en
Abstract:
Plagiatserkennung ist der Prozess, einen wissenschaftlichen Text zu analysieren und mögliche plagiierte Abschnitte zu finden. In diesem Zusammenhang haben sich nicht-automatisierte Vorgehensweisen als zeitaufwändig und subjektiv erwiesen. Insbesondere in Anbetracht des steigenden Publikationsvolumens wissenschaftlicher Arbeiten stellen automatisierte Verfahren wertvolle Instrumente zur Verfügung, die das Erkennen von plagiiertem Text effektiv unterstützen. Konventionelle Plagiatserkennungssoftware vergleicht Textpassagen mit möglichen Originaldokumenten basierend auf übereinstimmende Zeichenketten. Im Gegensatz dazu versucht intrinsische Plagiatserkennung plagiierte Abschnitte anhand stilistischer Merkmale zu erkennen. Auf diese Weise ist es möglich, plötzliche Änderung des Schreibstils zu erkennen. Die Erkennung von stilistischen Inkonsistenzen ist mit dem Gebiet der Authorship Attribution, vor allem in der Verwendung der textuellen Features, eng verbunden. Die vorliegende Arbeit beschäftigt sich mit der Entwicklung und Implementierung eines Prototypen, der eine intrinsische Plagiatserkennung durchführt. Das entwickelte Verfahren extrahiert automatisch stilometrische Features aus einem Text und führt eine multivariate Clusteranalyse durch. Die jeweiligen Cluster repräsentieren Gruppen von Textpassagen, die ähnliche stilometrische Eigenschaften aufweisen und können daher mit der entsprechenden Anzahl von Autoren in Verbindung gesetzt werden. Die Eingabedaten (Text) werden durch Artikel aus der englischsprachigen Ausgabe des Onlinelexikons Wikipedia generiert. Die Evaluierung der Ergebnisse zeigt, dass das durchgeführte Verfahren Textpassagen verschiedener Autoren unterscheiden kann. Des Weiteren wird gezeigt, dass die Zuverlässigkeit des Verfahrens stark von der Anzahl der Autoren abhängt. Die Annäherung der korrekten Klassenaufteilung hängt unter anderem von der Ermittlung der Clusteranzahl ab. Die resultierende Anzahl wird anhand eines eigens entwickelten Qualitätsmaßes bewertet.
de
Plagiarism detection is the process of analysing a scientific text and to find potential plagiarised passages. In this context, non-automated procedures have proven to be time-consuming and subjective. Especially in the light of a steadily increasing number of scientific publications, automated software-aided approaches represent valuable instruments to effectively detect plagiarized text. Conventional plagiarism software compares text passages against potential original documents based on matching strings. In contrast, intrinsic plagiarism detection attempts to detect plagiarized sections based on stylometric features. Thus, this procedure enables to discover sudden changes in the writing style. The recognition of stylistic inconsistencies is closely associated with the field of Authorship Attribution, especially in the use of textual features. The present thesis focuses on the development and implementation of a prototype of intrinsic plagiarism detection. The developed approach automatically extracts stylometric features from a given text and performs a multivariate cluster analysis. The respective clusters represent groups of text passages exhibiting similar stilometric properties and can therefore be associated with the respective number of authors. The input data (text) is represented by articles from the English-language edition of the online encyclopedia Wikipedia. The evaluation results demonstrate that the conducted procedure enables to approximately distinguish between text passages originating form different authors. Furthermore, it was shown that the reliability of the results are strongly dependent on the number of authors. The approximation of the correct author class structure depends among others on the determination of the number of clusters. The resulting number is validated by an own developed quality measure.