Pichler, M. (2022). Study of 2D representations of encrypted network traffic for attack detection with deep learning [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.89762
In einer immer vernetzteren Welt steigt die Menge an gesendeten Daten ständig an. Gleichzeitig steigt auch der Bedarf an schnellen und robusten Systemen zum erkennen von Netzwerkangriffen. Solche Angriffe zu erkennen wird durch die hohe Menge an verschlüsselten Daten erheblich erschwert.Deep Learning (DL) zeigt in vielen Anwendungsbereichen herausragenden Ergebnisse, beim Erkennen von Netzwerkangriffen zeigt sich allerdings kein signifikanter Unterschied zu bestehenden Machine Learning (ML) Ansätzen. Wir schlagen eine neue bildbasierte Form zur Darstellung von Datenverkehr vor, welche sich die starke Leistung in der Mustererkennung von Convolutional Neural Networks (CNN) zu nutze machen kann. Dazu verwenden wir modernste synthetische Datensätze und Datensätze welche aus echten Datenverkehr erstellt wurden. In Kombination mit aktuellen Deep Learning Ansätzen wie Siamese Networks (SN) oder Few-Shot Learning untersuchen wir die Leistung in binärer Klassifikation und in Klassifikation mit mehreren Klassen.Wir berücksichtigen modernen Datenverkehr in dem wir unsere Datensätze einschränken, und nur Attribute verwenden, welche auch in verschlüsselter Kommunikation vorliegen. Wir kombinieren mehrere Granularitäten von Netzwerkkommunikationen zu einem neuen Datensatz, welchen wir multikey nennen. Mit diesen multikey Ansatz versuchen wir so viel Informationen wie möglich aus den zur Verfügung stehenden Daten auszulesen. Es zeigt sich, dass verschiedene Modelle und Architekturen nur wenig Einfluss auf die Erkennungsrate haben. Bilder welche wir aus multikey Daten generieren, verbessern die Resultate zu bestehenden Darstellungen von Datenverkehr, liefern aber keine besseren Ergebnisse als andere Machine Learning Modelle, welche auch mit multikey basierten Datensätzen trainiert wurden. Daraus schließen wir, dass die Erkennungsrate vor allem von der Qualität und Genauigkeit der Daten abhängt.Als Resultat dieser Arbeit präsentieren wir eine optimierte Darstellung von Datenverkehr zur Verwendung mit CNNs. Außerdem beschreiben wir einen Schritt für Schritt Prozess zur Evaluierung von Modellen für Netzwerkangriffe und präsentieren mehrere Optimierungen im Bezug auf Siamese Networks.
de
With an ever more connected world, volume of network traffic surges and so does the need for fast and reliable Network Intrusion Detection Systems (NIDS). With most of the Internet's traffic being encrypted, detecting harmful activities becomes more and more challenging. Deep Learning has shown exceptional results in many domains, but was not able to significantly improve NIDS performance over traditional Machine Learning ensembles. We propose new image based representations of network traffic that can utilize the powerful pattern identification performance of Convolutional Neural Networks (CNN). State of the art synthetic intrusion detection datasets and real world captures are used in combination with modern Deep Learning techniques like Siamese Networks (SN) and Few-Shot learning to investigate intrusion detection performance in binary and multiclass classification tasks. To address modern day traffic, we limit ourself to only use network traffic features which are also available in highly encrypted environments. A multikey approach is used to capture as much information as possible in this limited feature space. We show that different models and architectures have only little influence on the detection performance. Using multikey based visual representations, we outperform state of the art CNN-representations, yet equalizing ensembles that also work on multikey-based vectors. From our experiments we can conclude that quality and granularity of data is more important than its form of representation or the applied classification algorithm.As a result we present an optimized way to represent network traffic for deep learning, provide an end-to-end approach for generating datasets and evaluating models, and present multiple performance optimizations for Siamese Networks.