Wassermann, S. A. (2022). Machine learning for network traffic monitoring and analysis : application to internet QoE assessment and network security [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.97660
communicatin networks; quality of experience; network security; video streaming
en
Abstract:
Das Internet spielt heute eine wichtige Rolle. Zahlreiche alltägliche Aufgaben können online erledigt werden. So ist es zum Beispiel sehr einfach geworden, eine Banküberweisung über den Rechner oder das Smartphone zu tätigen. Während die Digitalisierung vieles vereinfacht, ist sie für Cyberkriminelle sehr attraktiv, da sie potenziell auf sehr sensible Informationen oder sogar auf vernetzte kritische Infrastrukturen zugreifen können. Datenschutz ist bedeutender und eine größere Herausforderung als je zuvor. Auch für die Unterhaltung verlassen wir uns zunehmend auf das Internet: früher sahen wir uns Filme auf DVDs an, heute nutzen wir Streaming-Dienste wie Netflix. Statistiken bestätigen diesen Trend: Laut Sandvine machte Videostreaming 2019 60 % des weltweiten Internetverkehrs aus. COVID-19 hat diese Tendenz verstärkt: Netflix, YouTube und Amazon entschieden sogar, die Standard-Auflösung zu reduzieren, um einen Zusammenbruch während dem Lockdown zu vermeiden. Die Dienste müssen jedoch die beste Quality of Experience (QoE) liefern, um Abwanderung zu vermeiden. Das Gleiche gilt für Internetdienstanbieter, deren Ziel es ist, ihre Netze effizient zu betreiben und schwerwiegende QoE-Verschlechterungen zu vermeiden. Außerdem wird die Überwachung ihrer Netzwerke schwieriger, da die Verschlüsselung Deep Packet Inspection unzuverlässig macht. In dieser Arbeit setzten wir maschinelles Lernen (ML) für die fortschrittliche Überwachung des Netzwerkverkehrs ein, mit besonderem Schwerpunkt auf (i) der Analyse der Video- und Web-QoE und (ii) der automatischen Erkennung von Malware und Netzwerkangriffen, die beide auf netzwerk- und geräteinternen Messungen beruhen. Alle vorgeschlagenen Lösungen wurden anhand von großen und heterogenen Datensätzen gründlich evaluiert. Genauer gesagt, drehte sich unsere Arbeit um die folgenden Themen: Video-QoE: Wir haben zwei KI-Lösungen für die Inferenz wichtiger QoE-Indikatoren vorgeschlagen: eine basiert auf Daten von YoMoApp, eine Android-App für sitzungsbasierte YouTube-QoE-Erfassung, und eine integriert in ViCrypt, ein System für die Echtzeit-Erfassung relevanter Metriken des Videostreaming. ViCrypt ermittelt diese jede Sekunde wenn der Nutzer sich ein YouTube-Video ansieht, und nutzt dazu netzinterne, verschlüsselte Verkehrsmessungen. Dies ist unseres Wissens nach die feinste Granularität, die bisher für die Qualitätsinferenz im Kontext von verschlüsseltem Datenverkehr verwendet wurde. Mit beiden Systemen erzielten wir vielversprechende Ergebnisse. Web-QoE: wir schätzten den SpeedIndex und das QoE-Niveau von Web-Sitzungen, indem wir ausschließlich verschlüsselte Netz-Level Eingaben nutzten. Wir haben gezeigt, dass ML-Modelle nicht gut über die analysierten Geräte (Rechner, Smartphone, Tablet) hinweg funktionierten, d.h. dass ein Modell, das auf Daten von einem einzigen Gerät trainiert wurde, enttäuschende Ergebnisse lieferte, wenn es auf Daten von anderen Geräten angewendet wurde. Unseres Wissens nach sind wir die ersten, die den starken Einfluss des Gerätetyps auf die Qualität der QoE-Inferenz zeigen. Außerdem haben wir Modelle erstellt, die Flow-Level- statt Paket-Level-Eingaben nutzen; sie lieferten sehr gute Ergebnisse und können gleichzeitig einfach eingesetzt werden. Erkennung mobiler Malware: wir entwickelten BIGMOMAL – Big Data Analytics for Mobile Malware Detection –, ein System für die Erkennung von Malware und das Fingerprinting von Apps auf Android-Telefonen. BIGMOMAL nutzt ausschließlich einfache Modelle und Eingaben, die direkt auf dem Gerät extrahiert werden, unter Wahrung der Privatsphäre. BIGMOMAL ermöglicht es beides mit hoher Genauigkeit durchzuführen. Datenstrom-basierendes aktives Lernen für die Erkennung von Netzwerkangriffen: Unser Ziel ist die kontinuierliche Optimierung eines überwachten Lernmodells bei begrenzter Verfügbarkeit von markierten Daten. Wir haben RAL – Reinforced Stream-based Active Learning – entwickelt, ein System, das aktives Lernen mit bestärktem Lernen nutzt, um die Trainingspunkte der ML-Modelle im Strom klug auszuwählen und noch in der Lage zu sein, Metriken mit hoher Genauigkeit zu schätzen. RAL übertraf den Stand der Technik, indem es die Schätzgenauigkeit erhöhte und die Anzahl der erforderlichen Datenabfragen verringerte. Im Rahmen dieser Arbeit haben wir RAL ausschließlich für Netzwerkangriffe verwendet, obwohl es für alle Arten von Datenströmen entwickelt wurde. Zusammendfassend lässt sich sagen, dass wir wichtige QoE- und Sicherheitsprobleme erforscht und innovative datengesteuerte Lösungen vorgeschlagen haben, die den Stand der Technik erweitern. Wir haben den breiten Bereich der Überwachung und Analyse des Netzwerkverkehrs vorangebracht, indem wir die Anwendung von KI/ML auf Netzwerkprobleme (AI4NETS) vorangetrieben und so den Weg für ein besseres Internet geebnet haben.
de
The Internet plays a crucial role in today's society. Indeed, numerous everyday tasks can now be accomplished online. For instance, it has become very easy to carry out a bank transfer via our computer or smartphone. While digitalization simplifies processes, it is very attractive for cybercriminals, as they can potentially access very sensitive and valuable user information, or even interconnected critical infrastructures. Protecting confidential data is now paramount and more challenging than ever before. We also increasingly rely on the Internet for entertainment. Whereas we used to watch movies on DVDs, we use today streaming services like Netflix. Statistics confirm this trend: according to Sandvine, video streaming made up 60% of the global Internet traffic in 2019. The COVID-19 pandemic has intensified this tendency: Netflix, YouTube, and Amazon even decided to reduce the default playback resolution to avoid a service breakdown during the lockdown. However, services need to deliver the best Quality of Experience (QoE) to avoid churn. The same is true for Internet service providers, whose goal is to operate their networks efficiently and to avoid severe QoE degradations. Monitoring their networks also becomes more difficult, as end-to-end encryption renders traditional Deep-Packet-Inspection techniques unreliable. In this thesis, we leveraged machine learning (ML) for advanced network-traffic monitoring, with a specific focus on (i) the analysis of video and Web QoE, and (ii) the automatic detection of malware and network attacks, both relying on in-network and in-device measurements. All the proposed solutions were thoroughly evaluated on top of large and heterogeneous datasets. More precisely, our work revolved around the following topics: Video QoE: we conceived two ML-based solutions to infer key QoE indicators (KQIs) for video-streaming services, the first one built on top of data gathered with YoMoApp, an Android application for session-based YouTube-QoE monitoring, the second one integrated into ViCrypt, a system for real-time sensing of relevant quality metrics of video streaming. ViCrypt infers the considered metrics every second while the user is watching a YouTube video, relying on in-network, encrypted-traffic measurements. To the best of our knowledge, this is the finest granularity so far used for quality inference in the context of encrypted traffic. With our two solutions, we achieved highly promising results in the context of video-KQI inference. Web QoE: we built an AI-based framework to estimate the SpeedIndex of Web sessions and the levels of Web QoE from encrypted-network-traffic measurements. We showed that ML models did not generalize well across the considered devices (desktop, smartphone, tablet): a model trained on data coming from a single device yielded disappointing results when applied to data coming from other device types. To the best of our knowledge, we are the first to unveil the strong impact of the device type on the quality of Web-QoE inference. We additionally conceived multi-device, Web-QoE estimation models based on flow-level measurements, achieving high accuracy while being easily deployable. Mobile-malware detection: we conceived BIGMOMAL – Big Data Analytics for Mobile Malware Detection –, an ML-based system for mobile-malware detection and application fingerprinting. BIGMOMAL exclusively relies on lightweight ML models and features extracted directly on the users’ smartphone, while respecting their privacy. Through BIGMOMAL, we realized both tasks with high accuracy. Stream-based active learning for detection of network attacks: we aimed at continuously tuning a supervised-learning model with limited availability of labeled data. We developed RAL – Reinforced stream-based Active Learning –, a framework based on stream-based active learning coupled with reinforcement learning to wisely choose the training points from which ML models can learn while still being able to infer crucial metrics with high accuracy. RAL outperformed the state of the art by increasing the estimation accuracy and lowering the number of necessary labeling queries. While we have applied RAL exclusively in network security problems in this thesis, it has been designed for any type of stream-based learning application. In conclusion, we investigated highly relevant QoE and cybersecurity problems and proposed innovative data-driven solutions extending the state of the art. We advanced the broad domain of network-traffic monitoring and analysis by pushing forward the application of AI/ML to networking problems (AI4NETS), paving the way for a better Internet.