Classification of encrypted QUIC network traffic

Geiginger, Lisa-Marie

doi:10.34726/hss.2021.91661

Record link:

https://doi.org/10.34726/hss.2021.91661
http://hdl.handle.net/20.500.12708/18894

Title:

Classification of encrypted QUIC network traffic

Citation:

Geiginger, L.-M. (2021). Classification of encrypted QUIC network traffic [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.91661

reposiTUm DOI:

10.34726/hss.2021.91661

CatalogPlus:

AC16386612

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Geiginger, Lisa-Marie

Advisor:

Zseby, Tanja

Co-advisor:

Meghdouri, Fares

Organisational Unit:

E389 - Institute of Telecommunications

Date (published):

2021

Number of Pages:

Keywords:

network traffic classification; machine learning; QUIC; encrypted network traffic

Abstract:

In der heutigen Zeit werden zunehmends mehr und mehr Netzwerkdaten verschlüsselt. Ein Beispiel dafür ist QUIC, ein verschlüsseltes Protokoll in der Transportschicht, das von Google entwickelt wurde. Die Besonderheit von QUIC ist, dass - obwohl es auf UDP basiert - gewisse Vorteile von TCP berücksichtigt werden. Aufgrund der Verschlüsselung der Daten stehen deutlich weniger Informationen für Analysewerkzeuge, für die Identifikation von Datenströmen oder für die Erkennung von Anomalien zur Verfügung. Dies macht es notwendig, die Datenanalyse anzupassen, um mit den schnellen Entwicklungen bezüglich Verschlüsselung mithalten zu können. In dieser Arbeit werden die wichtigstenFeatures zur Charakterisierung von durch QUIC verschlüsselten Daten ermittelt und in weiterer Folge extrahiert. Weiters wird untersucht, wie akkurat QUIC Daten mit Hilfe von verschiedenen überwachten ML Algorithmen in die unterschiedlichen Google Anwendungen klassifiziert werden können, wenn nur die Features, die auch im verschlüsselten Netzwerkverkehr verfügbar sind, dafür verwendet werden. Zur Quantisierung der Leistungsfähigkeit der verwendeten Algorithmen werden verschiedene Metriken berechnet, wie accuracy, precision, recall, F1 Wert und ROC AUC Wert. Anhand der Metriken wird gezeigt, dass auch mit den wenigen verfügbaren Features eine gute Klassifizierung der Datenströme möglich ist. Weiters werden die Features ermittelt, die den größten Beitrag zur Klassifizierung bei den unterschiedlichen Algorithmen leisten, da sich damit auch die Entscheidungen der ML Algorithmen ein Stück weit erklären lassen. Dies ist wichtig für die Explainability der ML Algorithmen und die Robustheit gegenüber Manipulationen.

Today, more and more organizations are setting up infrastructures to encrypt theirnetwork traffic. As a result, a modern, robust, and lightweight encryption scheme isrequired. As an example for this, QUIC, a novel transport layer encryption protocol, was developed by Google. QUIC is designed to address TCP issues, while running over UDP, and thus, unlike TCP, it does not require an overhead to keep track of its connections. Nonetheless, encryption reduces the amount of information available to network traffic monitoring tools, necessitating the development of new extraction methods to keep up with the growing amount of such encrypted traffic. In this thesis, learning-based models are developed that can distinguish between various Google services that run on top of QUIC. Also, the most relevant features of encrypted QUIC network traffic are determined and the classification performance of the new feature vector is evaluated using various supervised ML algorithms. According to the results, the proposed solution achieves good accuracy, precision, recall, F1 score, and ROC AUC scores. Furthermore, the explainability aspect is addressed in order to comprehend patterns learned from data and then the feature importance is re-evaluated using such adaptive techniques.

License:

In Copyright

Appears in Collections:

Thesis