Ranzinger, M. (2026). A Systematic Comparison of Named Entitiy Recognition Approaches for Cyber Threat Intelligence [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.131901
E194 - Institut für Information Systems Engineering
-
Date (published):
2026
-
Number of Pages:
122
-
Keywords:
Named Entity Recognition; Cyber Threat Intelligence; Large Language Models; Cybersecurity; Natural Language Processing
en
Abstract:
Cyber Threat Intelligence (CTI) ist ein essenzieller Teil der Cybersecurity. Sie umfasst Wissen, das Technologien und Individuen zur Abwehr von Cyberangriffen benötigen. Angesichts der großen Menge an täglich generierten CTI-Informationen, benötigen Cybersicherheits-Analysten automatisierte Werkzeuge, um diese Daten effizient zu verarbeiten, um aussagekräftige Erkenntnisse zu erlangen und davon Handlungsweisen abzuleiten. Eines solcher Werkzeuge ist Named Entity Recognition (NER). NER identifiziert relevante Entitäten in unstrukturiertem Text, um Folgeaufgaben, wie Suche, Filterung und Analyse zu erleichtern. In dieser Arbeit werden Ansätze für NER auf CTI-Daten im Rahmen einer Systematic Literature Review (SLR) untersucht, die mithilfe eines in dieser Studie vorgeschlagenen LLM-basierten Extraktors durchgeführt wird, und im Hinblick auf ihre Architekturen analysiert. Darüber hinaus werden sechs Publikationen, die ihre Ansätze öffentlich bereitstellen, hinsichtlich ihrer Tagging-Performance sowie ihrer Trainings- und Betriebskosten evaluiert und miteinander verglichen. Um aussagekräftige Einblicke in die Tagging-Performance zu ermöglichen, wird diese aus vier Perspektiven analysiert: der Gesamtperformance, der Performance auf Entitätstypen, der Performance in Bezug auf Entitätsattribute (z.B. Entitätshäufigkeit) sowie der Fähigkeit, vollständige Dokumente, anstatt einzelne Sätze, zu taggen. Dies ermöglicht eine fundierte Entscheidungsfindung bei der Auswahl des am besten geeigneten NER-Ansatzes für das Tagging von CTI-Nachrichten. Die Evaluation zeigt, dass einfachere Architekturen über alle analysierten Perspektiven hinweg konsistent bessere Ergebnisse erzielen als komplexere Alternativen. Encoder-basierte Language Models (LMs) wie BERT, kombiniert mit einer einfachen Decoder-Ebene (CRF oder Softmax), erreichen die höchste Performance. Entgegen den Erwartungen führt die Einbeziehung von Kontext auf Dokumentenebene nicht zu einer Leistungsverbesserung, sondern verschlechtert die Ergebnisse. Die Analyse zeigt ferner, dass in den meisten betrachteten Veröffentlichungen NER-Performancewerte künstlich erhöht sind, verursacht durch Entitätsüberlappungen zwischen Trainings- und Testdaten. Prompt-basierte Extraktoren, die auf dem allgemeinen Wissen großer Large Language Models (LLMs) beruhen, schneiden nicht nur schlechter ab als domänenspezifische Ansätze, sondern verursachen auch deutlich höhere Kosten, mit bis zu 50-fach langsamerer Inferenz und über 100-fach höherem Energieverbrauch, was sie für CTI-Anwendungen mit hohem Durchsatz ungeeignet macht.
de
Cyber Threat Intelligence (CTI) is an essential element of the cybersecurity domain. It encompasses knowledge that supports technologies and individuals in mitigating cyber attacks. Given the large volume of cybersecurity information generated daily, cybersecurity analysts require automated tools to efficiently process this data and extract meaningful insights and actionable outcomes. One such concept is Named Entity Recognition (NER), which identifies and labels relevant entities in text to improve searching, filtering and analysis. In this work, approaches for NER on CTI data are examined through a Systematic Literature Review (SLR) enabled by an LLM-based extractor proposed in this study and analyzed with respect to their architectures. Furthermore, six publications that publicly provide their approaches are evaluated and compared based on tagging performance as well as training and operational costs. To provide meaningful insights into tagging performance, we analyze it from four perspectives: overall performance, performance on specific entity types, performance on specific entity attributes (e.g. entity frequency) and the capability to tag entire documents. This enables informed decision-making in selecting the most suitable NER approach for tagging CTI news. The evaluation shows that simpler architectures consistently outperform more complex alternatives across all analyzed perspectives. Encoder-based language models (LMs) such as BERT, combined with non-complex decoding layers (CRF or Softmax), achieve the highest tagging performance. Contrary to expectations, the incorporation of document-level context does not improve performance, but degrade results. The analysis further indicates that NER evaluation performance scores are inflated due to data leakage, caused by entity overlap between training and test data. Prompt-based extractors that rely on the general knowledge of large language models (LLMs) not only underperform compared to domain-specific approaches but also incur substantially higher computational costs, with inference up to 50 times slower and over 100 times greater energy consumption, which renders them unsuitable for high-throughput CTI applications.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers