Reinsperger, M. (2025). Dangerous capability evaluation of large language models for web penetration testing [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130442
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
73
-
Keywords:
Large Language Models (LLMs); Penetration Testing; Benchmark; AI Agent; Cybersecurity; Web Security
en
Abstract:
With the rapid advances in Large Language Models, concerns about their dual-use potential for offensive cybersecurity are growing. While major AI laboratories conduct internal safety evaluations, these reports often lack transparency and reproducibility. Furthermore, existing independent evaluations often rely on CTF-style benchmarks that do not adequately cover real-world scenarios and capability requirements. This thesis tries to address these gaps by creating a real-world-inspired web application benchmark and using it to assess nine state-of-the-art LLMs.For this, the HackingBuddyGPT framework was extended with three new agent configurations, classified by the tool used to interact with the benchmark: a simple HTTP request interface, a full Linux shell environment, and a complex sub-agent architecture. The new benchmark set comprises two realistic web applications: PHBlog, a simple online blog with a protected administrative interface, and Pycket, a ticket web shop with a role-based access control system. The applications were designed to emulate real-world architectures and contain vulnerabilities mapped to the OWASP Top 10, which lead to so-called,,flags'' that are indicators of compromise that need to be submitted to show successful exploitation. Nine models were evaluated using the agent configurations on the benchmark applications, ranging from proprietary frontier models such as GPT-5.1 and Claude Sonnet 4.5 to open-weight alternatives like DeepSeek-v3.2-exp and GPT-oss-120b.The results show a significant performance gap between proprietary and open-weight models as well as between older and newer models. The tested leading proprietary models, Claude Sonnet 4.5 and GPT-5.1, achieve high success rates of 77% to 81% of flags found, even exploiting complex, multi-step exploit chains. Crucially, all but one model outperform existing non-AI-based security scanners such as ZAP. This work confirms that current frontier models already possess strong offensive cybersecurity capabilities, and newer models require continued, transparent safety testing before release.
en
Angesichts der rasanten Fortschritte bei Sprachmodellen (Large Language Models) wächst die Besorgnis über deren Dual-Use-Potenzial im Bereich der offensiven Cybersicherheit. Während die Hersteller der Sprachmodelle interne Sicherheitsbewertungen durchführen, enthalten die resultierenden Berichte zumeist nicht genügend Informationen, um Transparenz und Reproduzierbarkeit sicherzustellen. Weiters stützen sich viele unabhängige Evaluierungen auf Benchmarks im CTF-Stil, die reale Szenarien und Fähigkeitsanforderungen an die Modelle nicht ausreichend abdecken. Diese Arbeit schließt diese Lücken durch die Erstellung eines realitätsnahen Benchmarks für Webanwendungen und dessen Nutzung zur Bewertung von neun aktuellen Sprachmodellen. Hierfür wurde das Framework HackingBuddyGPT um drei neue Agenten, die danach klassifiziert sind, welches Werkzeug ihnen für die Interaktion mit dem Benchmark zur Verfügung steht: eine einfache Schnittstelle, die HTTP-Abfragen erlaubt; eine Linux-Shell-Umgebung; sowie eine komplexe Sub-Agenten-Architektur. Das neu erstellte Benchmark-Set umfasst zwei realistische Webanwendungen: PHBlog, ein einfacher Online-Blog mit geschützter administrativer Oberfläche, und Pycket, ein Ticket-Webshop mit rollenbasierten Zugriffskontrollen. Die Anwendungen wurden so konzipiert, dass sie reale Architekturen nachbilden und Schwachstellen enthalten, die typischen OWASP Top-10 Schwachstellen entsprechen. Diese Schwachstellen führen zu sogenannten ,,Flags'', welche als Indikator der Kompromittierung zum Nachweis der erfolgreichen Ausnutzung der Schwachstellen dienen. Neun Modelle wurden mittels dieser Agenten auf den Benchmarks evaluiert, darunter proprietären Modellen wie GPT-5.1 und Claude Sonnet 4.5 sowie Open-Weight wie Alternativen wie DeepSeek-v3.2-exp und GPT-oss-120b. In den Ergebnissen ist ein signifikanter Leistungsunterschied sowohl zwischen proprietären und Open-Weight Modellen ersichtlich, als auch zwischen älteren und neueren Modellen. Die führenden getesteten proprietären Modelle, Claude Sonnet 4.5 und GPT-5.1, erzielen hohe Erfolgsquoten von 77% bis 81% der gefundenen Flags und nutzen dabei sogar komplexe, mehrstufige Exploit-Ketten aus. Ein bedeutsames Ergebnis ist, dass mit Ausnahme eines einzelnen Modells alle KI-Agenten besser abschneiden als herkömmliche, nicht-KI-basierte Schwachstellenscanner wie ZAP. Diese Arbeit bestätigt damit, dass aktuelle Spitzenmodelle bereits über starke offensive Fähigkeiten in der Cybersicherheit verfügen und dass neuere Modelle vor ihrer Veröffentlichung kontinuierliche und transparente Sicherheitstests unterzogen werden sollten.