Hausberger, B. (2026). Enhanced Repository-Level Code Comprehension through Knowledge Graphs for Large Language Models [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.137228
Die Codegenerierung wurde durch jüngste Fortschritte bei Large Language Models (LLMs) maßgeblich beeinflusst. Das Verständnis auf Repository-Ebene bleibt jedoch insbesondere innerhalb von Enterprise-Java-Umgebungen, die stark auf Meta-Programming-Frameworks wie Spring und Lombok basieren, eine zentrale Herausforderung. In diesen Umgebungen werden Kontrollfluss und Logik häufig durch implizite Annotationen als durch expliziten Quellcode definiert. Infolgedessen übersehen herkömmliche textbasierte Retrieval-Augmented-Generation-Ansätze (RAG) kritische Abhängigkeiten und liefern irrelevanten Kontext.Um diesen Einschränkungen zu begegnen, stellt diese Arbeit J-PRISM (Java Property-graph Repository-level Insight System for Meta-programming) vor, eine neue Architektur,die statische Git-Repositories in semantisch angereicherte Wissensgraphen (Knowledge Graphs, KG) transformiert. J-PRISM modelliert Code-Entitäten als Knoten und Abhängigkeiten als Kanten, wodurch einem KI-Agenten eine deterministische Schnittstelle zur Abfrage der Codebasis bereitgestellt wird. Das System implementiert eine hybri-de Retrieval-Strategie über das Model Context Protocol (MCP), welche symbolische Cypher-Abfragen für strukturelle Präzision mit vektorbasierter semantischer Suche zurKonzeptfindung kombiniert. Zur Validierung dieses Ansatzes wurde ein neues Set an Benchmarks entwickelt, dasspeziell auf Java-Repositories mit Meta-Programming zugeschnitten ist und von einfachen CRUD-Anwendungen bis hin zu komplexen infrastrukturintensiven Architekturen reicht.Die empirische Evaluierung zeigt, dass J-PRISM herkömmliche dateibasierte Retrieval-Methoden (OpenHands) signifikant übertrifft und im Vergleich zu 89,37% bei der Baseline, einen mittleren Quality Score von 97,69% erreicht. Die Ergebnisse bestätigen ferner,dass mit zunehmender architektonischer Komplexität ein strukturiertes graphbasiertes Retrieval für ein präzises und effizientes Codeverständnis unerlässlich wird.
de
Recent advancements in Large Language Models (LLMs) have significantly impacted code generation. However, repository-level comprehension remains a critical challenge,particularly within enterprise Java environments that rely heavily on meta-programming frameworks such as Spring and Lombok. In these environments, control flow and logicare often defined by implicit annotations rather than explicit source code. As a result, standard text-based Retrieval Augmented Generation (RAG) approaches miss criticaldependencies and retrieve irrelevant context. To address these limitations, this thesis introduces J-PRISM (Java Property-graph Repository-level Insight System for Meta-programming), a new architecture that transforms static Git repositories into semantically enriched Knowledge Graphs (KG). J-PRISM models code entities as nodes and dependencies as edges, providing an AI agent with adeterministic interface to query the codebase. The system implements a hybrid retrieval strategy via the Model Context Protocol (MCP), combining symbolic Cypher queries forstructural precision with vector-based semantic search for concept discovery. To validate this approach, a new set of benchmarks specifically tailored to Java repositories using meta-programming was developed, ranging from simple CRUD applications to complex infrastructure-intensive architectures. Empirical evaluation demonstrates thatJ-PRISM significantly outperforms standard file-based retrieval methods (OpenHands), achieving a mean Quality Score of 97.69%, compared to 89.37% for the baseline. Re-sults further confirm that as architectural complexity increases, structured graph-based retrieval becomes essential for accurate and efficient code comprehension.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft