Hartl, A. (2023). Anomaly Detection for Network Security based on Streaming Data [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.98524
Die Erkennung von Angriffen in Netzwerkverkehr ist ein vielversprechender Anwendungsbereich für maschinelles Lernen (ML) und für Data-Mining-Verfahren. Während in bisherigen wissenschaftlichen Publikationen viele herkömmliche ML-Techniken mit beeindruckender Erkennungsleistung unter Laborbedingungen vorgestellt wurden, weisen sie bei der Umsetzung in der Praxis erhebliche Mängel und Leistungseinbußen auf. Dies lässt sich erklären, wenn man mehrere Herausforderungen betrachtet, denen sich Data Scientists in diesem Bereich stellen müssen. Insbesondere können (a) herkömmliche statische Modelle die Dynamik von Netzwerkdaten nicht bewältigen, (b) fehlt es den Modellvorhersagen oft an Erklärbarkeit, was den erfolgreichen Einsatz in der Praxis erschwert, (c) sind Systeme, die auf die Erkennung von Netzwerkangriffen abzielen, mit einer hochgradig gegnerischen Umgebung konfrontiert, und (d) stützen sich die in der Vergangenheit entwickelten Detektoren häufig auf Informationen, die für verschlüsselten Datenverkehr nicht mehr verfügbar sind. In dieser Arbeit widmen wir uns diesen Herausforderungen, indem wir neue Methoden zur Analyse von Netzwerkverkehr und zur Erkennung von Angriffen entwickeln.Insbesondere untersuchen wir Techniken, die für den Umgang mit Concept Drift im Kontext von Netzwerkverkehr geeignet sind und ein kontinuierliches Training während der Nutzung ermöglichen. Wir analysieren Algorithmen, die sich für die Erkennung von Anomalien in Streamdaten eignen und sich somit an die sich verändernden Merkmale des beobachteten Verkehrs anpassen können, und stellen einen neuen Algorithmus vor, der speziell für die Hochgeschwindigkeitsanforderungen in Datennetzumgebungen geeignet ist. Wir schlagen den Einsatz von Visualisierungstechniken für erklärbares ML im Bereich der Netzwerkverkehrsanalyse vor und evaluieren diese, selbst wenn undurchsichtige rekurrente Deep-Learning-Techniken eingesetzt werden, und wir entwickeln neuartige Techniken zur Analyse von verschlüsseltem Netzwerkverkehr.Die Methoden und Ansätze, die wir in dieser Arbeit vorstellen, sind für die Analysedes Datenverkehrs in Hochsicherheitsinfrastrukturen aufgrund der sehr spezifischen Kombination von Herausforderungen in diesem Bereich sehr relevant. Es gibt jedoch eine Vielzahl von anderen Bereichen und Anwendungsgebieten in der Data Science, auf die unsere Methoden angewendet werden können. Mit dieser Arbeit geben wir neue Impulse für zukünftige Forschung und skizzieren Methoden und Algorithmen, um den Herausforderungen zu begegnen, die die Analyse von Netzwerkverkehr in der heutigen Zeit mit sich bringt.
de
Identifying attacks in network traffic constitutes a promising application area of Machine Learning (ML) and data mining techniques. While in related work many traditional ML techniques are presented with impressive detection performance under laboratory conditions, they show severe shortcomings and performance drops when implemented in real life. This can be explained when considering several challenges that data scientists in this area have to face. In particular, (a) traditional static models cannot cope with dynamics of network data, (b) model predictions often lack explainability, impeding successful deployability in practice, (c) systems that aim at detecting network attacks are faced with a highly adversarial environment, and (d) detectors developed in the past frequently relied on information that is not available for encrypted traffic. In this thesis, we address these challenges by developing novel methods for network traffic analysis andattack detection.In particular, we investigate techniques appropriate for dealing with concept drift in the context of network traffic that allow continuous training throughout usage. We analyze algorithms suited for streaming anomaly detection, which are thus able to adjust to evolving characteristics of observed traffic, and present a new algorithm suited specifically for the high-speed requirements in data network environments. We propose and evaluate the use of visualization techniques for explainable ML in the field of network traffic analysis, which are applicable even when deploying opaque recurrent deep learning techniques, and we develop novel techniques for analyzing encrypted traffic.The methods and approaches we outline in this thesis are highly relevant for network traffic analysis in high-security infrastructures due to the very specific combination of challenges in this field. However, there is a variety of other fields and application areas in data science to which our methods can be applied. With this thesis, we introduce new directions for future research, and we outline methods and algorithms to address the challenges that analysis of network traffic yields in modern times.