LLM-Based IDS Alert Interpretation for Cyber Incident Analysis and Triage

Schärmer, Alina Sophia

doi:10.34726/hss.2026.131750

DC Field

Value

Language

dc.contributor.advisor

Squarcina, Marco

dc.contributor.author

Schärmer, Alina Sophia

dc.date.accessioned

2026-03-13T10:13:46Z

dc.date.issued

2026

dc.date.submitted

2026-02

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Schärmer, A. S. (2026). <i>LLM-Based IDS Alert Interpretation for Cyber Incident Analysis and Triage</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.131750</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2026.131750

dc.identifier.uri

http://hdl.handle.net/20.500.12708/226916

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description.abstract

Die Analyse der großen Anzahl von Warnmeldungen (Alerts), die täglich von Intrusion Detection Systemen (IDS) generiert werden, stellt für Analysten in Security Operation Centers (SOC) eine erhebliche Herausforderung dar. Dies gilt insbesondere, wenn ein hoher Anteil der Meldungen auf Fehlalarme (False Positives) zurückzuführen ist. Die Automatisierung von Teilen des Alert-Triage-Prozesses kann daher einen wichtigen Beitrag zur Entlastung von SOC-Teams und zur Absicherung von IT-Infrastrukturen leisten. In dieser Arbeit entwickeln wir ein Konzept für die automatisierte Klassifizierung und Informationsanreicherung von IDS-Alerts durch die Zuordnung zu relevanten Cyber Threat Intelligence (CTI)-Daten. Wir beschäftigen uns insbesondere mit dem Problem der Aufbereitung der Alerts für den Zuordnungsprozess. Wir untersuchen hierfür den Einsatz von Large Language Models (LLMs) für die Klassifizierung von IDS-Warnmeldungen, mit einem Fokus auf der Fähigkeit von LLMs, echte Angriffsmuster in den Alerts von Fehlalarmen zu unterscheiden und Warnmeldungen korrekt MITRE ATT&CK-Techniken zuzuordnen. Für die Evaluation verwenden wir Alerts aus sowohl netzwerkbasierten als auch hostbasierten IDS und vergleichen die Effektivität der Klassifizierungen zweier LLMs, ChatGPT und Gemini. Darüber hinaus untersuchen wir den Einfluss von Systemkontextinformationen wie zusätzlichen Logeinträgen oder Informationen zur Serverkonfiguration. Wir analysieren außerdem den Einfluss von Few-Shot-Beispielen auf die Interpretation der Warnmeldungen und bewerten, wie konsistent die Modelle identische Eingabeaufforderungen interpretieren. Unsere Ergebnisse zeigen, dass beide untersuchten LLMs ohne zusätzliche Kontextinformationen oder geeignete Few-Shot-Beispiele Schwierigkeiten haben, Angriffsereignisse von Fehlalarmen zu unterscheiden. Insgesamt erzielen die Modelle bessere Ergebnisse bei Alerts, die klare Indikatoren für potenziell bösartige Aktivitäten enthalten, beispielsweise die Erwähnung spezifischer Tools oder TTPs (Tactics, Techniques and Procedures), die typischerweise im Rahmen realer Angriffe eingesetzt werden. Alerts mit schwächeren Indikatoren, wie ungewöhnliche Häufungen von Events oder Protokollabweichungen, werden dagegen weniger präzise klassifiziert. Wir haben außerdem festgestellt, dass Few-Shot-Beispiele die Interpretationsqualität erheblich verbessern können, obwohl unsere Experimente zeigen, wie wichtig es ist, diese Beispiele sorgfältig auszuwählen. Darüber hinaus zeigen unsere Versuche mehrere Herausforderungen hinsichtlich der praktischen Einsatzfähigkeit von LLMs im SOC-Kontext, darunter überlastete Modelle, hohe Token-Kosten, API-Rate-Limits und gelegentliche Verarbeitungsfehler.

dc.description.abstract

Interpreting the large volume of alerts produced by Intrusion Detection Systems (IDS) each day can be challenging and fatiguing for Security Operation Center (SOC) analysts, especially when encountering a high number of false positives. Supporting analysts by automating parts of the alert-triage process can therefore provide a valuable contribution to safeguarding IT systems. In this thesis, we work toward an automated approach for mapping IDS alerts to Cyber Threat Intelligence (CTI) data by leveraging Large Language Models (LLMs) for the task of classifying IDS alerts. Our focus lies on the ability of LLMs to distinguish attack-related alerts from false positives and to associate alerts with the correct MITRE ATT&CK techniques. In our evaluation, we use alerts generated by both network-based and host-based IDS and compare the classification performance of two LLMs, namely ChatGPT and Gemini. Furthermore, we examine the impact of system context information such as additional log lines and server configuration data on the LLMs' classifications. In addition, we analyze the influence of Few-Shot examples on alert interpretation and assess how consistently the models interpret identical input prompts. Our results show that both analyzed LLMs struggle to distinguish attack-related alerts from false positives when they are not provided with additional information such as contextual data or Few-Shot examples. In general, the models perform better when interpreting alerts that contain strong indicators of potential malicious activity, such as names of tools known to be used in attacks. Alerts with weaker indicators, such as frequency anomalies or protocol violations, are interpreted less accurately. We also find that few-shot examples can significantly improve interpretation quality, although our experiments emphasize the importance of selecting these examples carefully. Moreover, our evaluation reveals several limitations that affect the applicability of LLMs for alert interpretation, including overloaded models, high token costs, rate limits, and occasional processing errors.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Large Language Models (LLMs)

dc.subject

Intrusion Detection Systems (IDS)

dc.subject

Alert Triage

dc.subject

Cyber Threat Intelligence (CTI)

dc.subject

Security Operation Center (SOC)

dc.subject

Cyber Defense

dc.title

LLM-Based IDS Alert Interpretation for Cyber Incident Analysis and Triage

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2026.131750

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Alina Sophia Schärmer

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E192 - Institut für Logic and Computation

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17801748

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-3105-0903

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.grantfulltext

open

item.cerifentitytype

Publications

item.openairetype

master thesis

item.mimetype

application/pdf

item.languageiso639-1

item.fulltext

with Fulltext

item.openaccessfulltext

Open Access

crisitem.author.dept

E192 - Institut für Logic and Computation

crisitem.author.parentorg

E180 - Fakultät für Informatik

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2.62 MB)

In Copyright

Show simple item record

Page view(s)

checked on Mar 13, 2026

Download(s)

checked on Mar 13, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM