Quality improvement of labels for model-driven benchmark data generation for intrusion detection systems

Frank, Maximilian

doi:10.34726/hss.2021.82646

Record link:

https://doi.org/10.34726/hss.2021.82646
http://hdl.handle.net/20.500.12708/17804

Title:

Quality improvement of labels for model-driven benchmark data generation for intrusion detection systems

Citation:

Frank, M. (2021). Quality improvement of labels for model-driven benchmark data generation for intrusion detection systems [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.82646

reposiTUm DOI:

10.34726/hss.2021.82646

CatalogPlus:

AC16229420

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Frank, Maximilian

Advisor:

Rauber, Andreas

Organisational Unit:

E194 - Institut für Information Systems Engineering

Date (published):

2021

Number of Pages:

122

Keywords:

IT Sicherheit; künstliche Intelligenz; Datensatz; Labeling; IDS; Anomalie Erkennung

cyber security; machine learning; dataset; labeling; IDS; anomaly detection

Abstract:

Computersysteme und Netzwerke werden jedes Jahr komplexer. Sie werden auch immer mehr in die verschiedenen Aspekte des täglichen Lebens und der globalen Industrie integriert. Daher wird die Gewährleistung der Sicherheit von Computersystemen immer wichtiger, während aber zugleich auch die Anzahl und Komplexität von Angriffen auf solche Netzwerke steigt. Intrustion Detection Systeme verwenden verschiedene Algorithmen und Techniken um Angriffe auf Computersysteme und Netzwerke zu erkennen. Sie werden daher oft von Cyber Security Teams als Teil des Sicherheitskonzepts verwendet.Netzwerkverkehr und System Log Datensätze von sowohl normalen Benutzer als auch Angreifer Aktivitäten werden verwendet um Intrustion Detection Systeme zu entwickeln, zu verifizieren und um sie bezüglich ihrer Erkennungsrate zu vergleichen. Diese Datensätze beinhalten normalerweise auch Labels das heißt, Einträge in den Datensätzen die durch Angreifer Aktivitäten entstanden sind wurden dementsprechend markiert. Solche Markierungen sind notwendig um Algorithmen und Techniken korrekt bewerten zu können. Existierende Arbeiten über die Generierung von solchen markierten Datensätzen legen den Fokus hauptsächlich auf die Datensätze selbst. Die Prozesse für das Zuweisen von Labels werden nur als sekundäre Resultate betrachtet und sind meist nicht für andere Datensätze wiederverwendbar. In dieser Arbeit stellen wir Cyber Range Kyoushi vor, eine Methodik und ein Framework für die Generierung von markierten Datensätzen. Cyber Range Kyoushi baut dazu auf State-of-the-Art Arbeiten zum Thema Datensatzgenerierung mit modellgetriebenen Testbeds auf.Das vorgestellte Framework wurde auch mit Open Source Technologien und Software Bibliotheken, die im Rahmen der Arbeit speziell entwickelt wurden, implementiert. Weiters wurde die vorgeschlagene Methodik auch analysiert und ausgewertet. Hierzu wurden ein Cyber Range Testbed und zwei Referenz Angriffsszenarios erstellt und mit dem Cyber Range Kyoushi Framework umgesetzt. Die Qualität der daraus entstandenen markierten Datensätze wurde dann auch anhand einer Expertenumfrage überprüft. Die Implementierung der Referenzszenarien und die darauf folgende Expertenauswertung zeigen, dass das vorgeschlagene Framework die effiziente Generierung von präzise markierten Datensätzen zur Evaluierung von Intrustion Detection Systemen ermöglicht.

Computer systems and networks become more complex every year. They are also integrated into ever more aspects of daily life and global industries. As such, the security of computer systems becomes more and more important, while at the same time the threats and attacks on these systems increase in frequency and complexity. Intrusion Detection Systems, using various algorithms and techniques to detect malicious activities on systems or computer networks, are therefore commonly used by cyber security personnel to counteract intrusions.Datasets containing traffic and system logs of both benign and malicious events are used to develop, verify and benchmark the algorithms and detection techniques used by Intrustion Detection Systems. These datasets usually also have to be labeled, i.e., entries corresponding to malicious activities are marked as such, to properly evaluate the correctness of tested algorithms or techniques. Existing works on the generation of such labeled datasets mostly focus on the datasets themselves. The used labeling processes are treated as secondary results and are usually applicable and specific to the original work only. In this thesis we propose Cyber Range Kyoushi, a framework and methodology for generating and labeling datasets based on previous work done on dataset generation using model-driven simulation testbeds.The proposed framework was also implemented using open source technologies and custom software libraries developed as part of this thesis. The soundness of the proposed approach was further evaluated and analyzed. For this, a cyber range testbed and two reference scenarios were designed and realized using the Cyber Range Kyoushi framework. Quality of the generated labeled datasets was also verified through an expert survey. The reference scenario's implementation and subsequent expert survey show that the proposed framework enables to efficiently create precisely labeled datasets for Intrusion Detection Systems.

License:

In Copyright

Appears in Collections:

Thesis