Fröschl, A. (2020). Semantic approaches to detect file system log events for analyzing data exfiltration [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.59160
E194 - Institut für Information Systems Engineering
-
Date (published):
2020
-
Number of Pages:
105
-
Keywords:
Dateisystem-Log-Analyse; C-SPARQL; TripeWave; Datenexfiltration von sensiblen Dateien; automatisierte semantische Analyse von Logs; RDF Datenstream
de
file-system log analysis; C-SPARQL; TripeWave; data exfiltration of sensitive files; automated semantic analysis of log; RDF data stream
en
Abstract:
Daten sind heutzutage ein wichtiges Wirtschaftsgut für Unternehmen. Daher können data leaks zu schwerwiegenden Reputationsschäden führen und sich negativ auf den Umsatz des betroffenen Unternehmens, sowie dessen Kunden und Geschäftspartner auswirken. Diese Arbeit beschäftigt sich mit der Integration semantischer Technologien, um den Prozess der forensischen Analyse von Dateiaktivitäten zu unterstützen. Daher werden Dateisystemlogdaten semantisch dargestellt und über ein (nahezu) Echtzeitsystem analysiert. Das entwickelte Prototypensystem integriert Logstash und TripleWave, semantische Ontologien und C-SPARQL, um eine automatisierte Analyse der Dateizugriffsereignistypen bereitzustellen.Ein weiteres Ziel des Systems ist die Rekonstruktion von Dateilebenszyklen, die darauf abzielt, frühere Dateiaktivitäten zu verknüpfen, um verdächtige Muster wie Dateikopiervorgänge an externe Speicherorte zu identifizieren. Die Integration von Hintergrundwissen unterstützt einen Analysten beim Verständnis der Dateiaktivitäten und ihres Kontexts. Um das System zu bewerten, führen wir zunächst Leistungstests für Ereignisse mit einzelnen und gemischten Dateioperationen durch. In diesem Aufbau variieren wir auch die Parameter (z. B. die Zeit zwischen aufeinanderfolgenden Ereignissen), um Schwellenwerte und Einschränkungen zu identifizieren.Schließlich zeigen wir die Möglichkeit der Erstellung von Dateilebenszyklen in einem realistischeren Szenario mit mehreren Clients. In diesem Szenario wird auch die Verwendung von Hintergrundwissen (z. B. Benutzer- und Dateispeicherortkategorisierung) eingeführt, um erweiterte Abfragen und Ergebnisse zu ermöglichen.Während der Evaluierung stießen wir, aufgrund von Leistungseinschränkungen von C-SPARQL, auf Einschränkungen bei der Echtzeitanalyse von Dateisystemlogdaten. Reduktionen bei der Ereigniserkennung hängen von der ausgeführten Dateiaktivität und von der Rate der eingehenden Logeinträge ab. Darüber hinaus benötigen wir eine optimierte Fenstergröße von C-SPARQL Konstruktionsabfragen, um eine optimierte Balance zwischen der Häufigkeit erkannter Ereignisse, den akzeptablen Overhead und die Verzögerung der Benachrichtigungszeit zu erreichen.Darüber hinaus vergleichen wir konzeptionell unsere Ansätze mit bestehenden Open Source- und kommerziellen Lösungen, die ähnliche Ziele verfolgen.
de
Data is an essential asset in today's organizations, and hence, data leakage can lead to severe reputation damage and negatively impact revenues of the affected companies, customers, and business partners.This thesis introduces an approach to integrate semantic technologies in order to assist the process of forensic analysis of file activities. To this end, file system log data is represented semantically and analyzed via a (near) real-time system. The developed prototype system integrates Logstash and TripleWave, ontologies, and C-SPARQL in order to provide an automated analysis of file access event types.A further goal of the system is the reconstruction of file life-cycles, which aims to link past file activities in order to identify suspicious patterns, such as file copy operations to external locations. The integration of background knowledge supports an analyst in understanding file activities and their context. To evaluate the system, we first conduct performance tests on single and mixed file events. In this setup, we also vary the parameters (e.g., the time between successive events) to identify thresholds and limitations.Finally, we demonstrate the possibility to construct file life-cycle graphs in a more realistic scenario with multiple clients. This scenario also introduces the use of background knowledge (e.g., users and file location categorization) to allow for enriched queries and results. During the evaluation, we encountered restrictions on a near real-time analysis of file system log data, due to performance limitations of C-SPARQL. Constraints on the event detection depend on the type of file activity performed and on the rate of incoming log entries. In addition, the window size of C-SPARQL construct queries has to be well balanced, in order to compensate the frequency of detected events, acceptable overhead, and delay in notification time.Furthermore, we compare our approaches with existing open source and commercial solution which follow similar goals.