Data-Centric AI for Conceptual Modeling: Cleansed Data and GNN-LLM based Recommender for UML Class Diagrams

Djelic, Andjela

doi:10.34726/hss.2026.133242

Record link:

https://doi.org/10.34726/hss.2026.133242
http://hdl.handle.net/20.500.12708/227887

Title:

Data-Centric AI for Conceptual Modeling: Cleansed Data and GNN-LLM based Recommender for UML Class Diagrams

Citation:

Djelic, A. (2026). Data-Centric AI for Conceptual Modeling: Cleansed Data and GNN-LLM based Recommender for UML Class Diagrams [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.133242

reposiTUm DOI:

10.34726/hss.2026.133242

CatalogPlus:

AC17852658

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Djelic, Andjela

Advisor:

Bork, Dominik

Co-advisor:

Neidhardt, Julia

Organisational Unit:

E194 - Institut für Information Systems Engineering

Date (published):

2026

Number of Pages:

Keywords:

LLM; GNN; Recommender System; Model-Driven Engineering; Software Engineering; Data Cleansing Pipeline; UML; Machine Learning

Abstract:

Im Bereich des Model-Driven Engineering (MDE) können auf Machine Learning (ML) basierende Recommender-Systeme Entwicklerinnen und Entwickler während der konzeptuellen Modellierung unterstützen, indem sie auf Grundlage des aktuellen Zustands eines Modells plausible Modellierungselemente vorschlagen. Die für eine solche ML-Forschung üblicherweise verwendeten Datensätze konzeptueller Modelle, die häufig aus öffentlichen Software-Repositorien gewonnen werden, weisen jedoch oft erhebliche Qualitätsproblemeauf, darunter duplizierte Modelle, triviale Beispielmodelle und mehrsprachige Namen von Modellelementen.Über die Datenqualität hinaus stellt die multimodale Natur konzeptueller Modelle, bei der Informationen sowohl durch semantische Beschreibungen als auch durch strukturelle Beziehungen vermittelt werden, eine zusätzliche Schwierigkeit für die Entwicklung robuster Werkzeuge zur Modellvervollständigung dar. Insbesondere führt die Transformation vonUnified Modeling Language (UML)-Modellen in maschinenlesbare Repräsentationen häufig zu einem Informationsverlust: Ansätze, die auf textueller Linearisierung basieren, vernachlässigen strukturelle Abhängigkeiten, während graphbasierte Repräsentationen die semantische Reichhaltigkeit der Namen von Modellelementen verringern können.Diese Studie stellt eine umfassende Data-Cleansing-Pipeline vor, die speziell für UML Modelldatensätze entwickelt wurde und heuristikbasiertes Filtern von Dummy-Modellen, ähnlichkeitsbasierte Duplikatserkennung sowie Sprachfilterung kombiniert. Darüber hinaus wird ein Recommender-System für die Vervollständigung von UML-Klassendiagrammen entwickelt, indem eine hybride Architektur feinjustiert wird, die Graph Neural Networks (GNNs) und Large Language Models (LLMs) integriert. Das resultierende Modell kann fehlende Modellierungselemente empfehlen, darunter Klassennamen, Attribute, Operationen und Beziehungstypen.Der vorgeschlagene Ansatz wird durch Reproduzierbarkeitsstudien evaluiert, die die Auswirkungen des Cleansing auf nachgelagerte ML-Aufgaben messen, sowie durch Experimente zur Vervollständigung von UML-Klassendiagrammen, in denen die Leistung des feinjustierten Modells mit einer Zero-Shot-Baseline verglichen wird. Die Ergebnisse verdeutlichen das Potenzial der Kombination einer UML-spezifischen Cleansing-Pipeline mit einem multimodalen GNN-LLM-Ansatz zur Auto-Completion und weisen damit auf eine stärker datenorientierte und strukturbewusste Richtung für Machine Learning im MDE hin.

In the Model-Driven Engineering (MDE) domain, Machine Learning (ML)-based recommender systems can assist developers during conceptual modeling by suggesting plausible modeling elements based on the current state of a model. However, the conceptual model datasets commonly used for such machine learning research, often mined from public software repositories, frequently suffer from significant quality issues, including duplicate models, trivial examples, and multilingual model element names.Beyond data quality, the multimodal nature of conceptual models, where information is conveyed through both semantic descriptions and structural relationships, poses an additional difficulty for the development of robust model completion tools. In particular, the transformation of Unified Modeling Language (UML) models into machine-readable representations often introduces a loss of information: approaches based on textual linearization disregard structural dependencies, whereas graph-based representations may lose the semantic richness of the model element names.This study introduces a comprehensive data cleansing pipeline specifically designed for UML model datasets, combining heuristics filtering for dummy models, similarity-based clone detection, and language filtering. In addition, a recommender system for UML class diagram completion is developed by fine-tuning a hybrid architecture that integrates Graph Neural Networks (GNNs) and Large Language Models (LLMs). This resulting model can recommend missing modeling elements, including class names, attributes, operations, and relationship types.The proposed approach is evaluated through reproducibility studies measuring the effect of cleansing on downstream ML tasks, as well as through experiments on UML class diagram completion tasks, comparing the performance of the fine-tuned model against a zero-shot baseline. The results demonstrate the potential of combining a UML-specific cleansing pipeline with a multimodal GNN-LLM auto-completion approach, pointing toward a more data-centric and structurally aware direction for machine learning in MDE.

Additional information:

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

License:

In Copyright

Appears in Collections:

Thesis