<div class="csl-bib-body">
<div class="csl-entry">Ojdanić, D. (2019). <i>MDCStream: a stream dataset generator for testing and evaluating stream data analysis algorithms</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2019.57168</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2019.57168
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/6559
-
dc.description
Decomposed Zeichen konvertiert!
-
dc.description.abstract
Die Bedeutung der Datenstromanalyse, vor allem bei der Erkennung von Ausreißern - den sogenannten "Outliern" - nimmt in Zeiten, in denen stetig mehr Daten generiert werden, konstant zu. Der klassische Ansatz bei maschinellem Lernen und Data Mining geht davon aus, dass Muster, die in Datensätzen erkannt werden, stabil im Verlauf der Zeit bleiben und sich nicht verändern. Beispiele aus dem echten Leben zeigen jedoch häufig ein anderes Verhalten, wobei sich die interne Datenstruktur ändert und weiterentwickelt. Eine weitere Herausforderung besteht darin, dass Daten als Ströme mit hohen Datenraten empfangen und möglichst zeitnahe analysiert werden sollen. Die Anwendungsbereiche von Klassifizierungs-Algorithmen sind groß und umfassen unter anderem IT Sicherheit, industrielle und finanzielle Anwendungen, medizinische Datenanalyse und viele mehr. Um Algorithmen zu optimieren oder gar neue zu entwickeln, braucht es flexible Umgebungen, um diese testen und vergleichen zu können. Im Verlauf dieser Masterarbeit entwickelten wir MDCStream, ein MATLAB Tool, welches multidimensionale Test-Datenströme generiert, um Algorithmen für die Datenstromanalyse zu evaluieren. Der Fokus von MDCStream liegt auf der Implementierung diverser Typen von Nicht-Stationaritäten. Das Tool basiert auf MDCGen, einem höchst flexiblen statischen Daten-Generator, der verschiedenste Varianten von multidimensionalen Testszenarien produzieren kann. Im Zuge der Arbeit optimierten wir MDCGen, entwickelten MDCStream und verwendeten die von MDCStream generierten Datensätze, um hochmoderne Outlier Detection Algorithmen für Datenströme auf verschiedene Typen von Concept Drift zu untersuchen. Die Experimente zeigten, dass die Algorithmen ähnliche Resultate produzieren, wobei MCOD, sowohl in der Genauigkeit als auch bei der Laufzeit, heraussticht. Die getesteten Algorithmen, welche alle auf Distanzberechnungen und "Sliding Windows" beruhen, sind sensitiv auf die Distanzen zwischen den Clustern. Dieses Verhalten entsteht aufgrund von Limitierungen bei der Evaluierung unterschiedlicher Dichten innerhalb des Analyzefensters. MDCStream kann bei dem Design und der Evaluierung von zukünftigen Klassifizierungs-Algorithmen eine immense Hilfe darstellen. Forscher und Experten in vielen verschiedenen wissenschaftlichen und technischen Gebieten können von MDCStream profitieren. Mit MDCStream werden Testdaten und Spezialfälle einfach generiert, um Algorithmen gründlich zu testen. MDCStream gewährleistet, dass generierte Daten spezifische Anforderungen, Variationen und Geometrien erfüllen, was nicht immer von Benchmark Datensätzen, die durch reale Anwendungen erstellt worden sind, behauptet werden kann. Dadurch stellt MDCStream eine perfekte Test- und Evaluierungsumgebung für Klassifizierungsalgorithmen dar.
de
dc.description.abstract
The importance of stream data analysis and in particular outlier detection is constantly increasing in times where more and more data is generated. Machine learning and data mining have classically assumed that patterns discovered in datasets are stable and permanent, but real-life applications commonly show that internal data structures change and evolve. Another challenge is the fact that data comes in streams and needs to be analyzed on a timely basis. The range of application for stream classification algorithms is large spanning from IT security, industrial and financial applications to medical data analysis and many more. To develop and enhance new or existing algorithms it is crucial to have flexible environments to test, compare and evaluate such algorithms. During this thesis, we developed MDCStream, a MATLAB tool to generate multidimensional stream datasets for testing stream data analysis algorithms. MDCStream focuses on implementing diverse types of nonstationarities. The tool is based on MDCGen, a highly flexible static generator capable to produce a broad variety of multi-dimensional data scenarios. We refined MDCGen, developed MDCStream, and used datasets generated with MDCStream to evaluate state-of-the-art stream outlier detection algorithms when facing different kinds of concept drift. Experiments showed that algorithms performed similarly, being MCOD the most remarkable in terms of accuracy and runtime. The tested algorithms, which are all distance and sliding window-based, showed to be especially sensitive to cluster inter-distances due to limitations when evaluating density differences inside analysis windows. MDCStream can strongly help the design and evaluation of future classification algorithms. Researchers and experts in many different scientific and technical fields can benefit from MDCStream using it to create datasets and special corner cases to thoroughly test their algorithms. MDCStream ensures that data follow specific design conditions, variations and geometries, which may not happen naturally either in benchmark datasets captured from real applications, therefore creating a perfect test and evaluation environment.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Stream Data Generation
de
dc.subject
Outlier Detection
de
dc.subject
Datenanalyse
de
dc.subject
Stream Data Generation
en
dc.subject
Outlier Detection
en
dc.subject
Data Analysis
en
dc.title
MDCStream: a stream dataset generator for testing and evaluating stream data analysis algorithms