dc.description.abstract
Das Internet spielt heute eine wichtige Rolle. Zahlreiche alltägliche Aufgaben können online erledigt werden. So ist es zum Beispiel sehr einfach geworden, eine Banküberweisung über den Rechner oder das Smartphone zu tätigen. Während die Digitalisierung vieles vereinfacht, ist sie für Cyberkriminelle sehr attraktiv, da sie potenziell auf sehr sensible Informationen oder sogar auf vernetzte kritische Infrastrukturen zugreifen können. Datenschutz ist bedeutender und eine größere Herausforderung als je zuvor. Auch für die Unterhaltung verlassen wir uns zunehmend auf das Internet: früher sahen wir uns Filme auf DVDs an, heute nutzen wir Streaming-Dienste wie Netflix. Statistiken bestätigen diesen Trend: Laut Sandvine machte Videostreaming 2019 60 % des weltweiten Internetverkehrs aus. COVID-19 hat diese Tendenz verstärkt: Netflix, YouTube und Amazon entschieden sogar, die Standard-Auflösung zu reduzieren, um einen Zusammenbruch während dem Lockdown zu vermeiden. Die Dienste müssen jedoch die beste Quality of Experience (QoE) liefern, um Abwanderung zu vermeiden. Das Gleiche gilt für Internetdienstanbieter, deren Ziel es ist, ihre Netze effizient zu betreiben und schwerwiegende QoE-Verschlechterungen zu vermeiden. Außerdem wird die Überwachung ihrer Netzwerke schwieriger, da die Verschlüsselung Deep Packet Inspection unzuverlässig macht. In dieser Arbeit setzten wir maschinelles Lernen (ML) für die fortschrittliche Überwachung des Netzwerkverkehrs ein, mit besonderem Schwerpunkt auf (i) der Analyse der Video- und Web-QoE und (ii) der automatischen Erkennung von Malware und Netzwerkangriffen, die beide auf netzwerk- und geräteinternen Messungen beruhen. Alle vorgeschlagenen Lösungen wurden anhand von großen und heterogenen Datensätzen gründlich evaluiert. Genauer gesagt, drehte sich unsere Arbeit um die folgenden Themen: Video-QoE: Wir haben zwei KI-Lösungen für die Inferenz wichtiger QoE-Indikatoren vorgeschlagen: eine basiert auf Daten von YoMoApp, eine Android-App für sitzungsbasierte YouTube-QoE-Erfassung, und eine integriert in ViCrypt, ein System für die Echtzeit-Erfassung relevanter Metriken des Videostreaming. ViCrypt ermittelt diese jede Sekunde wenn der Nutzer sich ein YouTube-Video ansieht, und nutzt dazu netzinterne, verschlüsselte Verkehrsmessungen. Dies ist unseres Wissens nach die feinste Granularität, die bisher für die Qualitätsinferenz im Kontext von verschlüsseltem Datenverkehr verwendet wurde. Mit beiden Systemen erzielten wir vielversprechende Ergebnisse. Web-QoE: wir schätzten den SpeedIndex und das QoE-Niveau von Web-Sitzungen, indem wir ausschließlich verschlüsselte Netz-Level Eingaben nutzten. Wir haben gezeigt, dass ML-Modelle nicht gut über die analysierten Geräte (Rechner, Smartphone, Tablet) hinweg funktionierten, d.h. dass ein Modell, das auf Daten von einem einzigen Gerät trainiert wurde, enttäuschende Ergebnisse lieferte, wenn es auf Daten von anderen Geräten angewendet wurde. Unseres Wissens nach sind wir die ersten, die den starken Einfluss des Gerätetyps auf die Qualität der QoE-Inferenz zeigen. Außerdem haben wir Modelle erstellt, die Flow-Level- statt Paket-Level-Eingaben nutzen; sie lieferten sehr gute Ergebnisse und können gleichzeitig einfach eingesetzt werden. Erkennung mobiler Malware: wir entwickelten BIGMOMAL – Big Data Analytics for Mobile Malware Detection –, ein System für die Erkennung von Malware und das Fingerprinting von Apps auf Android-Telefonen. BIGMOMAL nutzt ausschließlich einfache Modelle und Eingaben, die direkt auf dem Gerät extrahiert werden, unter Wahrung der Privatsphäre. BIGMOMAL ermöglicht es beides mit hoher Genauigkeit durchzuführen. Datenstrom-basierendes aktives Lernen für die Erkennung von Netzwerkangriffen: Unser Ziel ist die kontinuierliche Optimierung eines überwachten Lernmodells bei begrenzter Verfügbarkeit von markierten Daten. Wir haben RAL – Reinforced Stream-based Active Learning – entwickelt, ein System, das aktives Lernen mit bestärktem Lernen nutzt, um die Trainingspunkte der ML-Modelle im Strom klug auszuwählen und noch in der Lage zu sein, Metriken mit hoher Genauigkeit zu schätzen. RAL übertraf den Stand der Technik, indem es die Schätzgenauigkeit erhöhte und die Anzahl der erforderlichen Datenabfragen verringerte. Im Rahmen dieser Arbeit haben wir RAL ausschließlich für Netzwerkangriffe verwendet, obwohl es für alle Arten von Datenströmen entwickelt wurde. Zusammendfassend lässt sich sagen, dass wir wichtige QoE- und Sicherheitsprobleme erforscht und innovative datengesteuerte Lösungen vorgeschlagen haben, die den Stand der Technik erweitern. Wir haben den breiten Bereich der Überwachung und Analyse des Netzwerkverkehrs vorangebracht, indem wir die Anwendung von KI/ML auf Netzwerkprobleme (AI4NETS) vorangetrieben und so den Weg für ein besseres Internet geebnet haben.
de