Federated learning for log-based anomaly detection

Himler, Patrick

doi:10.34726/hss.2022.102209

Record link:

https://doi.org/10.34726/hss.2022.102209
http://hdl.handle.net/20.500.12708/135894

Title:

Federated learning for log-based anomaly detection

Citation:

Himler, P. (2022). Federated learning for log-based anomaly detection [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.102209

reposiTUm DOI:

10.34726/hss.2022.102209

CatalogPlus:

AC16698774

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Himler, Patrick

Advisor:

Zseby, Tanja

Organisational Unit:

E389 - Institute of Telecommunications

Date (published):

2022

Number of Pages:

Keywords:

log file analysis; network security; anomaly detection; machine learning; federated learning

Abstract:

Die Erkennung von Anomalien ist ein sehr wichtiger Bereich, um unerwünschtes Verhaltenund Angriffe auf Computersysteme zuverlässig zu erkennen. Für eine präzise Anomaly Detection (AD) können Logdaten verwendet werden, die eine bedeutende Quelle für Informationen zu überwachten Systemen darstellen. Angesichts der schieren Menge an Logdaten, die heute zur Verfügung stehen, wird Machine Learning (ML) und dessen Weiterentwicklung Deep Learning (DL) seit Jahren zur Erstellung von Modellen für die AD eingesetzt. Insbesondere bei der Verarbeitung von komplexen Logdaten ist DL oft in der Lage eine bessere Leistung als ML zu erreichen. Ähnlich wie bei ML können DL Modelle unterteilt werden in supervised, unsupervised und semi-supervised Ansätze.Semi-supervised Ansätze trainieren ihre Modelle nur mit anomalie-freien Logdaten. Durch die große Menge an Logdaten entstehen Probleme bei der Übertragung an eine zentrale Stelle, an der Modellberechnungen stattfinden können. Federated Learning (FL) versucht dieses Problem zu überwinden, indem lokale Modelle gleichzeitig auf Endgeräten gelernt und Verzerrungen, die aufgrund mangelnder Heterogenität der Trainingsdaten auftreten können, durch den Austausch von Modellparametern einzudämmen, um schließlich zu einem konvergierenden globalen Modell zu gelangen. Die lokale Betrachtung der Logdaten trägt dem Datenschutz und rechtlichen Bedenken Rechnung. Dies könnte eine stärkere Koordinierung und Zusammenarbeit zwischen Forschern und Cybersecurity-Unternehmen usw. in Zukunft möglich machen. Derzeit gibt es nur wenige wissenschaftliche Veröffentlichungen über logdaten-basierte AD, die FL verwenden. Es ist notwendig zu untersuchen,ob der Einsatz von FL für AD ein praktisch einsetzbares Anwendungsgebiet ist. Die Grundlage für diese Masterarbeit ist ein zentralisierter Ansatz unter Verwendung eines Autoencoder (AE ) und eines Long Short-Term Memory (LSTM) Modells für AD. Das AE Modell wird von Grund auf implementiert und für das LSTM Modell wurde eine moderne Open Source Implementierung namens LogDeep angepasst. Nach der Validierung der Ergebnisse mit anderen wissenschaftlichen Publikationen, übertragen wir die Modelle in eine FL Umgebung. Für die Auswertung verwenden wir einen Hadoop Distributed File System ( HDFS ) Datensatz, der in der aktuellen Forschung weit verbreitet ist, und einen Audit Datensatz, der vom Austrian Institute of Technology (AIT) zur Verfügung gestellt wird. Die ersten Ergebnisse zeigen, dass das AE Modell nicht für den untersuchten Audit-Datensatz geeignet ist. Die Ergebnisse für das LSTM Modell und den HDFS Datensatz zeigen, dass FL fast die gleichen Ergebnisse in Bezug auf die Metriken Accuracy, Precision, Recall und F1-Score, liefert wie ein zentraler Ansatz. Wobei wir im Zuge der Implementierung von LogDeep auf einen Vorverarbeitungschritt gestoßen sind ohne den die guten Ergebnisse aus der Literatur nicht repliziert werden konnte. Der Audit Datensatz war aufgrund der inkludierten Labels nicht uneingeschränkt für die gewählten Modelle nutzbar. Die Implementierung von FL bietet den Vorteil, dass die Modelle trotz einer ungleichen Verteilung der Logdaten konvergieren. Außerdem können die Ergebnisse durch die Variation einzelner LSTM Modellparameter erheblich verbessert werden. Dennoch können durch Einschränkungen bei den verwendeten Datensätzen keine generellen Aussagen getroffen werden. Es ist weitere wissenschaftliche Forschung notwendig, um die FL Ansätze zu optimieren und den Bedarf an Rechenressourcen zu reduzieren.

Anomaly Detection (AD) is a very important area to reliably detect unwanted behavior and attacks on computer systems. Log data is a rich source of information about systems under investigation and thus provides a suitable input for accurate AD. With the sheer amount of log data available today, Machine Learning (ML) and its further development Deep Learning (DL) is used for years to create models for AD. Especially when processing complex log data, DL is often able to achieve better performance than ML. Similar to ML, DL models can be divided into supervised, unsupervised and semi-supervised approaches.Semi-supervised approaches train their models only with benign log data. With the large quantity of log data, issues arise with the transfer of log data to a central entity where model computation can be done. Federated Learning (FL) tries to overcome this problem, by learning local models simultaneously on edge devices and overcome biases due to a lack of heterogeneity in training data through exchange of model parameters and finally arrive at a converging global model. Processing log data locally takes privacy and legal concerns into account and this could make more coordination and collaboration between researchers, cyber security companies, etc., feasible in the future. Currently,there are only few scientific publications on log-based AD which use FL. It is necessary to investigate whether the implementation of FL for AD is a practical field of application.The basis of this master thesis is a centralized approach using an Autoencoder (AE) and a Long Short-Term Memory (LSTM) model for AD. The AE model is implemented from scratch and for the LSTM model a state of the art open source implementation called LogDeep is adapted. After validating the results with other scientific publications,we transfer the models into a FL environment. For the evaluation, we use a Hadoop Distributed File System (HDFS) data set, which is well studied in current research, and an Audit data set provided by the Austrian Institute of Technology (AIT). The initial results show that AE is not suitable for the Audit data set under investigation. The results for a LSTM model show that FL yields almost the same results in terms of the metrics Accuracy, Precision, Recall, and F1-Score as a centralized approach. In the course of implementing LogDeep, we encountered a preprocessing step without which the good results from the literature could not be replicated. The Audit data set was not fully usable for the selected models due to the included labels. Implementing FL gives the advantage of converging models despite heterogeneous distribution of log data.Furthermore, by varying individual LSTM model parameters, the results can be greatly improved. However, due to limitations in the data sets used, no general statements can be made. Further scientific research will be necessary to optimize FL approaches andreduce computational resource requirements.

License:

In Copyright

Appears in Collections:

Thesis