<div class="csl-bib-body">
<div class="csl-entry">Djelic, A. (2026). <i>Data-Centric AI for Conceptual Modeling: Cleansed Data and GNN-LLM based Recommender for UML Class Diagrams</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.133242</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2026.133242
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/227887
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description.abstract
Im Bereich des Model-Driven Engineering (MDE) können auf Machine Learning (ML) basierende Recommender-Systeme Entwicklerinnen und Entwickler während der konzeptuellen Modellierung unterstützen, indem sie auf Grundlage des aktuellen Zustands eines Modells plausible Modellierungselemente vorschlagen. Die für eine solche ML-Forschung üblicherweise verwendeten Datensätze konzeptueller Modelle, die häufig aus öffentlichen Software-Repositorien gewonnen werden, weisen jedoch oft erhebliche Qualitätsproblemeauf, darunter duplizierte Modelle, triviale Beispielmodelle und mehrsprachige Namen von Modellelementen.Über die Datenqualität hinaus stellt die multimodale Natur konzeptueller Modelle, bei der Informationen sowohl durch semantische Beschreibungen als auch durch strukturelle Beziehungen vermittelt werden, eine zusätzliche Schwierigkeit für die Entwicklung robuster Werkzeuge zur Modellvervollständigung dar. Insbesondere führt die Transformation vonUnified Modeling Language (UML)-Modellen in maschinenlesbare Repräsentationen häufig zu einem Informationsverlust: Ansätze, die auf textueller Linearisierung basieren, vernachlässigen strukturelle Abhängigkeiten, während graphbasierte Repräsentationen die semantische Reichhaltigkeit der Namen von Modellelementen verringern können.Diese Studie stellt eine umfassende Data-Cleansing-Pipeline vor, die speziell für UML Modelldatensätze entwickelt wurde und heuristikbasiertes Filtern von Dummy-Modellen, ähnlichkeitsbasierte Duplikatserkennung sowie Sprachfilterung kombiniert. Darüber hinaus wird ein Recommender-System für die Vervollständigung von UML-Klassendiagrammen entwickelt, indem eine hybride Architektur feinjustiert wird, die Graph Neural Networks (GNNs) und Large Language Models (LLMs) integriert. Das resultierende Modell kann fehlende Modellierungselemente empfehlen, darunter Klassennamen, Attribute, Operationen und Beziehungstypen.Der vorgeschlagene Ansatz wird durch Reproduzierbarkeitsstudien evaluiert, die die Auswirkungen des Cleansing auf nachgelagerte ML-Aufgaben messen, sowie durch Experimente zur Vervollständigung von UML-Klassendiagrammen, in denen die Leistung des feinjustierten Modells mit einer Zero-Shot-Baseline verglichen wird. Die Ergebnisse verdeutlichen das Potenzial der Kombination einer UML-spezifischen Cleansing-Pipeline mit einem multimodalen GNN-LLM-Ansatz zur Auto-Completion und weisen damit auf eine stärker datenorientierte und strukturbewusste Richtung für Machine Learning im MDE hin.
de
dc.description.abstract
In the Model-Driven Engineering (MDE) domain, Machine Learning (ML)-based recommender systems can assist developers during conceptual modeling by suggesting plausible modeling elements based on the current state of a model. However, the conceptual model datasets commonly used for such machine learning research, often mined from public software repositories, frequently suffer from significant quality issues, including duplicate models, trivial examples, and multilingual model element names.Beyond data quality, the multimodal nature of conceptual models, where information is conveyed through both semantic descriptions and structural relationships, poses an additional difficulty for the development of robust model completion tools. In particular, the transformation of Unified Modeling Language (UML) models into machine-readable representations often introduces a loss of information: approaches based on textual linearization disregard structural dependencies, whereas graph-based representations may lose the semantic richness of the model element names.This study introduces a comprehensive data cleansing pipeline specifically designed for UML model datasets, combining heuristics filtering for dummy models, similarity-based clone detection, and language filtering. In addition, a recommender system for UML class diagram completion is developed by fine-tuning a hybrid architecture that integrates Graph Neural Networks (GNNs) and Large Language Models (LLMs). This resulting model can recommend missing modeling elements, including class names, attributes, operations, and relationship types.The proposed approach is evaluated through reproducibility studies measuring the effect of cleansing on downstream ML tasks, as well as through experiments on UML class diagram completion tasks, comparing the performance of the fine-tuned model against a zero-shot baseline. The results demonstrate the potential of combining a UML-specific cleansing pipeline with a multimodal GNN-LLM auto-completion approach, pointing toward a more data-centric and structurally aware direction for machine learning in MDE.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
LLM
en
dc.subject
GNN
en
dc.subject
Recommender System
en
dc.subject
Model-Driven Engineering
en
dc.subject
Software Engineering
en
dc.subject
Data Cleansing Pipeline
en
dc.subject
UML
en
dc.subject
Machine Learning
en
dc.title
Data-Centric AI for Conceptual Modeling: Cleansed Data and GNN-LLM based Recommender for UML Class Diagrams
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2026.133242
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Andjela Djelic
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Neidhardt, Julia
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17852658
-
dc.description.numberOfPages
78
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0001-8259-2297
-
tuw.assistant.orcid
0000-0001-7184-1841
-
item.languageiso639-1
en
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.mimetype
application/pdf
-
item.openairetype
master thesis
-
item.openaccessfulltext
Open Access
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.cerifentitytype
Publications
-
crisitem.author.dept
E194-03 - Forschungsbereich Business Informatics
-
crisitem.author.parentorg
E194 - Institut für Information Systems Engineering