In der heutigen Zeit werden zunehmends mehr und mehr Netzwerkdaten verschlüsselt. Ein Beispiel dafür ist QUIC, ein verschlüsseltes Protokoll in der Transportschicht, das von Google entwickelt wurde. Die Besonderheit von QUIC ist, dass - obwohl es auf UDP basiert - gewisse Vorteile von TCP berücksichtigt werden. Aufgrund der Verschlüsselung der Daten stehen deutlich weniger Informationen für Analysewerkzeuge, für die Identifikation von Datenströmen oder für die Erkennung von Anomalien zur Verfügung. Dies macht es notwendig, die Datenanalyse anzupassen, um mit den schnellen Entwicklungen bezüglich Verschlüsselung mithalten zu können. In dieser Arbeit werden die wichtigstenFeatures zur Charakterisierung von durch QUIC verschlüsselten Daten ermittelt und in weiterer Folge extrahiert. Weiters wird untersucht, wie akkurat QUIC Daten mit Hilfe von verschiedenen überwachten ML Algorithmen in die unterschiedlichen Google Anwendungen klassifiziert werden können, wenn nur die Features, die auch im verschlüsselten Netzwerkverkehr verfügbar sind, dafür verwendet werden. Zur Quantisierung der Leistungsfähigkeit der verwendeten Algorithmen werden verschiedene Metriken berechnet, wie accuracy, precision, recall, F1 Wert und ROC AUC Wert. Anhand der Metriken wird gezeigt, dass auch mit den wenigen verfügbaren Features eine gute Klassifizierung der Datenströme möglich ist. Weiters werden die Features ermittelt, die den größten Beitrag zur Klassifizierung bei den unterschiedlichen Algorithmen leisten, da sich damit auch die Entscheidungen der ML Algorithmen ein Stück weit erklären lassen. Dies ist wichtig für die Explainability der ML Algorithmen und die Robustheit gegenüber Manipulationen.
de
Today, more and more organizations are setting up infrastructures to encrypt theirnetwork traffic. As a result, a modern, robust, and lightweight encryption scheme isrequired. As an example for this, QUIC, a novel transport layer encryption protocol, was developed by Google. QUIC is designed to address TCP issues, while running over UDP, and thus, unlike TCP, it does not require an overhead to keep track of its connections. Nonetheless, encryption reduces the amount of information available to network traffic monitoring tools, necessitating the development of new extraction methods to keep up with the growing amount of such encrypted traffic. In this thesis, learning-based models are developed that can distinguish between various Google services that run on top of QUIC. Also, the most relevant features of encrypted QUIC network traffic are determined and the classification performance of the new feature vector is evaluated using various supervised ML algorithms. According to the results, the proposed solution achieves good accuracy, precision, recall, F1 score, and ROC AUC scores. Furthermore, the explainability aspect is addressed in order to comprehend patterns learned from data and then the feature importance is re-evaluated using such adaptive techniques.