Konzett, S. (2025). SDOstreamclust: Effective and Efficient Incremental Clustering of Streaming Data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.121266
stream clustering; streaming data analysis; data shifts; machine learning; unsupervised learning; clustering; concept drift; outlier detection; anomaly detection; dynamic clustering
en
Abstract:
In einer Welt, die zunehmend von Daten geprägt ist, erzeugen Anwendungen wie die Netzwerkverkehrsanalyse, Finanzanalytik und die Überwachung von IoT-Geräten kontinuierlich sich entwickelnde Daten, die eine Echtzeitverarbeitung erfordern, um verwertbare Erkenntnisse zu gewinnen. Um die zugrunde liegenden Strukturen dieser Daten in dynamischen Umgebungen zu verstehen, müssen unüberwachte Methoden entscheidende Herausforderungen des Stream-Clustering bewältigen: den Umgang mit nicht-stationärem Verhalten, die Anpassung an sich ändernde Verteilungen und die Erkennung neu auftretender Klassen. Diese Phänomene, zusammenfassend als Konzeptdrift bezeichnet, stellen erhebliche Herausforderungen für traditionelle Methoden dar. Mit SDOstreamclust stellen wir einen Stream-Clustering-Algorithmus vor, der auf den Stärken von Sparse Data Observers aufbaut und dabei hohe Genauigkeit, geringen Rechenaufwand und Anpassungsfähigkeit an sich ständig verändernde Daten kombiniert. SDOstreamclust wurde speziell für dynamische Umgebungen und Echtzeit-Datenstreams entwickelt und zeichnet sich durch Skalierbarkeit, einfache Interpretierbarkeit, Effizienz und Robustheit bei minimaler Parametrisierung aus. Umfangreiche Experimente mit verschiedenen realen und synthetischen Datensätzen, ergänzt durch Analysen zur Parametersensitivität, belegen die hervorragende Leistung und Zuverlässigkeit im Vergleich zu etablierten Methoden. Besonders hervorzuheben ist, dass SDOstreamclust keine aufwendige Feinabstimmung erfordert und Konzeptdrift – eine häufig übersehene, aber zentrale Herausforderung realer Anwendungen, die oft zu einer schnellen Verschlechterung von Modellen führt – erfolgreich adressiert. Damit etabliert sich SDOstreamclust als eine leistungsstarke und verlässliche Lösung im Bereich der unüberwachten Analyse von Datenstreams.
de
In a world increasingly driven by data, applications such as network traffic analysis, financial analytics, and IoT device monitoring continuously generate evolving data, necessitating real-time processing to uncover actionable insights. To understand the underlying structures of this data in dynamic environments, unsupervised methods must address critical stream clustering challenges: managing non-stationary behavior, adapting to distribution shifts, and identifying emerging classes. These phenomena, collectively referred to as concept drift, pose significant challenges to traditional methodologies. We introduce SDOstreamclust, an algorithm for stream clustering built upon Sparse Data Observers, leveraging their strengths to deliver high accuracy, low computational cost, and adaptability to evolving data. Designed for dynamic environments and real-time data streams, SDOstreamclust ensures scalability, interpretability, efficiency, and robustness with minimal parameterization. Comprehensive experiments on diverse real and synthetic datasets, complemented by parameter sensitivity analyses, demonstrate its superior performance and reliability compared to state-of-the-art methods. Notably, SDOstreamclust performs exceptionally well without extensive fine-tuning, effectively addressing concept drift, a critical yet often overlooked challenge in real-world applications that leads to rapid model degradation. These qualities establish SDOstreamclust as a strong competitor in the field of unsupervised streaming data analysis.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers