<div class="csl-bib-body">
<div class="csl-entry">Schärmer, A. S. (2026). <i>LLM-Based IDS Alert Interpretation for Cyber Incident Analysis and Triage</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.131750</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2026.131750
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/226916
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description.abstract
Die Analyse der großen Anzahl von Warnmeldungen (Alerts), die täglich von Intrusion Detection Systemen (IDS) generiert werden, stellt für Analysten in Security Operation Centers (SOC) eine erhebliche Herausforderung dar. Dies gilt insbesondere, wenn ein hoher Anteil der Meldungen auf Fehlalarme (False Positives) zurückzuführen ist. Die Automatisierung von Teilen des Alert-Triage-Prozesses kann daher einen wichtigen Beitrag zur Entlastung von SOC-Teams und zur Absicherung von IT-Infrastrukturen leisten. In dieser Arbeit entwickeln wir ein Konzept für die automatisierte Klassifizierung und Informationsanreicherung von IDS-Alerts durch die Zuordnung zu relevanten Cyber Threat Intelligence (CTI)-Daten. Wir beschäftigen uns insbesondere mit dem Problem der Aufbereitung der Alerts für den Zuordnungsprozess. Wir untersuchen hierfür den Einsatz von Large Language Models (LLMs) für die Klassifizierung von IDS-Warnmeldungen, mit einem Fokus auf der Fähigkeit von LLMs, echte Angriffsmuster in den Alerts von Fehlalarmen zu unterscheiden und Warnmeldungen korrekt MITRE ATT&CK-Techniken zuzuordnen. Für die Evaluation verwenden wir Alerts aus sowohl netzwerkbasierten als auch hostbasierten IDS und vergleichen die Effektivität der Klassifizierungen zweier LLMs, ChatGPT und Gemini. Darüber hinaus untersuchen wir den Einfluss von Systemkontextinformationen wie zusätzlichen Logeinträgen oder Informationen zur Serverkonfiguration. Wir analysieren außerdem den Einfluss von Few-Shot-Beispielen auf die Interpretation der Warnmeldungen und bewerten, wie konsistent die Modelle identische Eingabeaufforderungen interpretieren. Unsere Ergebnisse zeigen, dass beide untersuchten LLMs ohne zusätzliche Kontextinformationen oder geeignete Few-Shot-Beispiele Schwierigkeiten haben, Angriffsereignisse von Fehlalarmen zu unterscheiden. Insgesamt erzielen die Modelle bessere Ergebnisse bei Alerts, die klare Indikatoren für potenziell bösartige Aktivitäten enthalten, beispielsweise die Erwähnung spezifischer Tools oder TTPs (Tactics, Techniques and Procedures), die typischerweise im Rahmen realer Angriffe eingesetzt werden. Alerts mit schwächeren Indikatoren, wie ungewöhnliche Häufungen von Events oder Protokollabweichungen, werden dagegen weniger präzise klassifiziert. Wir haben außerdem festgestellt, dass Few-Shot-Beispiele die Interpretationsqualität erheblich verbessern können, obwohl unsere Experimente zeigen, wie wichtig es ist, diese Beispiele sorgfältig auszuwählen. Darüber hinaus zeigen unsere Versuche mehrere Herausforderungen hinsichtlich der praktischen Einsatzfähigkeit von LLMs im SOC-Kontext, darunter überlastete Modelle, hohe Token-Kosten, API-Rate-Limits und gelegentliche Verarbeitungsfehler.
de
dc.description.abstract
Interpreting the large volume of alerts produced by Intrusion Detection Systems (IDS) each day can be challenging and fatiguing for Security Operation Center (SOC) analysts, especially when encountering a high number of false positives. Supporting analysts by automating parts of the alert-triage process can therefore provide a valuable contribution to safeguarding IT systems. In this thesis, we work toward an automated approach for mapping IDS alerts to Cyber Threat Intelligence (CTI) data by leveraging Large Language Models (LLMs) for the task of classifying IDS alerts. Our focus lies on the ability of LLMs to distinguish attack-related alerts from false positives and to associate alerts with the correct MITRE ATT&CK techniques. In our evaluation, we use alerts generated by both network-based and host-based IDS and compare the classification performance of two LLMs, namely ChatGPT and Gemini. Furthermore, we examine the impact of system context information such as additional log lines and server configuration data on the LLMs' classifications. In addition, we analyze the influence of Few-Shot examples on alert interpretation and assess how consistently the models interpret identical input prompts. Our results show that both analyzed LLMs struggle to distinguish attack-related alerts from false positives when they are not provided with additional information such as contextual data or Few-Shot examples. In general, the models perform better when interpreting alerts that contain strong indicators of potential malicious activity, such as names of tools known to be used in attacks. Alerts with weaker indicators, such as frequency anomalies or protocol violations, are interpreted less accurately. We also find that few-shot examples can significantly improve interpretation quality, although our experiments emphasize the importance of selecting these examples carefully. Moreover, our evaluation reveals several limitations that affect the applicability of LLMs for alert interpretation, including overloaded models, high token costs, rate limits, and occasional processing errors.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Large Language Models (LLMs)
en
dc.subject
Intrusion Detection Systems (IDS)
en
dc.subject
Alert Triage
en
dc.subject
Cyber Threat Intelligence (CTI)
en
dc.subject
Security Operation Center (SOC)
en
dc.subject
Cyber Defense
en
dc.title
LLM-Based IDS Alert Interpretation for Cyber Incident Analysis and Triage