<div class="csl-bib-body">
<div class="csl-entry">Fröschl, A. (2020). <i>Semantic approaches to detect file system log events for analyzing data exfiltration</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.59160</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2020.59160
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/16207
-
dc.description.abstract
Daten sind heutzutage ein wichtiges Wirtschaftsgut für Unternehmen. Daher können data leaks zu schwerwiegenden Reputationsschäden führen und sich negativ auf den Umsatz des betroffenen Unternehmens, sowie dessen Kunden und Geschäftspartner auswirken. Diese Arbeit beschäftigt sich mit der Integration semantischer Technologien, um den Prozess der forensischen Analyse von Dateiaktivitäten zu unterstützen. Daher werden Dateisystemlogdaten semantisch dargestellt und über ein (nahezu) Echtzeitsystem analysiert. Das entwickelte Prototypensystem integriert Logstash und TripleWave, semantische Ontologien und C-SPARQL, um eine automatisierte Analyse der Dateizugriffsereignistypen bereitzustellen.Ein weiteres Ziel des Systems ist die Rekonstruktion von Dateilebenszyklen, die darauf abzielt, frühere Dateiaktivitäten zu verknüpfen, um verdächtige Muster wie Dateikopiervorgänge an externe Speicherorte zu identifizieren. Die Integration von Hintergrundwissen unterstützt einen Analysten beim Verständnis der Dateiaktivitäten und ihres Kontexts. Um das System zu bewerten, führen wir zunächst Leistungstests für Ereignisse mit einzelnen und gemischten Dateioperationen durch. In diesem Aufbau variieren wir auch die Parameter (z. B. die Zeit zwischen aufeinanderfolgenden Ereignissen), um Schwellenwerte und Einschränkungen zu identifizieren.Schließlich zeigen wir die Möglichkeit der Erstellung von Dateilebenszyklen in einem realistischeren Szenario mit mehreren Clients. In diesem Szenario wird auch die Verwendung von Hintergrundwissen (z. B. Benutzer- und Dateispeicherortkategorisierung) eingeführt, um erweiterte Abfragen und Ergebnisse zu ermöglichen.Während der Evaluierung stießen wir, aufgrund von Leistungseinschränkungen von C-SPARQL, auf Einschränkungen bei der Echtzeitanalyse von Dateisystemlogdaten. Reduktionen bei der Ereigniserkennung hängen von der ausgeführten Dateiaktivität und von der Rate der eingehenden Logeinträge ab. Darüber hinaus benötigen wir eine optimierte Fenstergröße von C-SPARQL Konstruktionsabfragen, um eine optimierte Balance zwischen der Häufigkeit erkannter Ereignisse, den akzeptablen Overhead und die Verzögerung der Benachrichtigungszeit zu erreichen.Darüber hinaus vergleichen wir konzeptionell unsere Ansätze mit bestehenden Open Source- und kommerziellen Lösungen, die ähnliche Ziele verfolgen.
de
dc.description.abstract
Data is an essential asset in today's organizations, and hence, data leakage can lead to severe reputation damage and negatively impact revenues of the affected companies, customers, and business partners.This thesis introduces an approach to integrate semantic technologies in order to assist the process of forensic analysis of file activities. To this end, file system log data is represented semantically and analyzed via a (near) real-time system. The developed prototype system integrates Logstash and TripleWave, ontologies, and C-SPARQL in order to provide an automated analysis of file access event types.A further goal of the system is the reconstruction of file life-cycles, which aims to link past file activities in order to identify suspicious patterns, such as file copy operations to external locations. The integration of background knowledge supports an analyst in understanding file activities and their context. To evaluate the system, we first conduct performance tests on single and mixed file events. In this setup, we also vary the parameters (e.g., the time between successive events) to identify thresholds and limitations.Finally, we demonstrate the possibility to construct file life-cycle graphs in a more realistic scenario with multiple clients. This scenario also introduces the use of background knowledge (e.g., users and file location categorization) to allow for enriched queries and results. During the evaluation, we encountered restrictions on a near real-time analysis of file system log data, due to performance limitations of C-SPARQL. Constraints on the event detection depend on the type of file activity performed and on the rate of incoming log entries. In addition, the window size of C-SPARQL construct queries has to be well balanced, in order to compensate the frequency of detected events, acceptable overhead, and delay in notification time.Furthermore, we compare our approaches with existing open source and commercial solution which follow similar goals.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Dateisystem-Log-Analyse
de
dc.subject
C-SPARQL
de
dc.subject
TripeWave
de
dc.subject
Datenexfiltration von sensiblen Dateien
de
dc.subject
automatisierte semantische Analyse von Logs
de
dc.subject
RDF Datenstream
de
dc.subject
file-system log analysis
en
dc.subject
C-SPARQL
en
dc.subject
TripeWave
en
dc.subject
data exfiltration of sensitive files
en
dc.subject
automated semantic analysis of log
en
dc.subject
RDF data stream
en
dc.title
Semantic approaches to detect file system log events for analyzing data exfiltration
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2020.59160
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Agnes Fröschl
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering