Data-Centric AI for Conceptual Modeling: Cleansed Data and GNN-LLM based Recommender for UML Class Diagrams

Djelic, Andjela

doi:10.34726/hss.2026.133242

DC Field

Value

Language

dc.contributor.advisor

Bork, Dominik

dc.contributor.author

Djelic, Andjela

dc.date.accessioned

2026-05-04T08:39:48Z

dc.date.issued

2026

dc.date.submitted

2026-04

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Djelic, A. (2026). <i>Data-Centric AI for Conceptual Modeling: Cleansed Data and GNN-LLM based Recommender for UML Class Diagrams</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.133242</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2026.133242

dc.identifier.uri

http://hdl.handle.net/20.500.12708/227887

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description.abstract

Im Bereich des Model-Driven Engineering (MDE) können auf Machine Learning (ML) basierende Recommender-Systeme Entwicklerinnen und Entwickler während der konzeptuellen Modellierung unterstützen, indem sie auf Grundlage des aktuellen Zustands eines Modells plausible Modellierungselemente vorschlagen. Die für eine solche ML-Forschung üblicherweise verwendeten Datensätze konzeptueller Modelle, die häufig aus öffentlichen Software-Repositorien gewonnen werden, weisen jedoch oft erhebliche Qualitätsproblemeauf, darunter duplizierte Modelle, triviale Beispielmodelle und mehrsprachige Namen von Modellelementen.Über die Datenqualität hinaus stellt die multimodale Natur konzeptueller Modelle, bei der Informationen sowohl durch semantische Beschreibungen als auch durch strukturelle Beziehungen vermittelt werden, eine zusätzliche Schwierigkeit für die Entwicklung robuster Werkzeuge zur Modellvervollständigung dar. Insbesondere führt die Transformation vonUnified Modeling Language (UML)-Modellen in maschinenlesbare Repräsentationen häufig zu einem Informationsverlust: Ansätze, die auf textueller Linearisierung basieren, vernachlässigen strukturelle Abhängigkeiten, während graphbasierte Repräsentationen die semantische Reichhaltigkeit der Namen von Modellelementen verringern können.Diese Studie stellt eine umfassende Data-Cleansing-Pipeline vor, die speziell für UML Modelldatensätze entwickelt wurde und heuristikbasiertes Filtern von Dummy-Modellen, ähnlichkeitsbasierte Duplikatserkennung sowie Sprachfilterung kombiniert. Darüber hinaus wird ein Recommender-System für die Vervollständigung von UML-Klassendiagrammen entwickelt, indem eine hybride Architektur feinjustiert wird, die Graph Neural Networks (GNNs) und Large Language Models (LLMs) integriert. Das resultierende Modell kann fehlende Modellierungselemente empfehlen, darunter Klassennamen, Attribute, Operationen und Beziehungstypen.Der vorgeschlagene Ansatz wird durch Reproduzierbarkeitsstudien evaluiert, die die Auswirkungen des Cleansing auf nachgelagerte ML-Aufgaben messen, sowie durch Experimente zur Vervollständigung von UML-Klassendiagrammen, in denen die Leistung des feinjustierten Modells mit einer Zero-Shot-Baseline verglichen wird. Die Ergebnisse verdeutlichen das Potenzial der Kombination einer UML-spezifischen Cleansing-Pipeline mit einem multimodalen GNN-LLM-Ansatz zur Auto-Completion und weisen damit auf eine stärker datenorientierte und strukturbewusste Richtung für Machine Learning im MDE hin.

dc.description.abstract

In the Model-Driven Engineering (MDE) domain, Machine Learning (ML)-based recommender systems can assist developers during conceptual modeling by suggesting plausible modeling elements based on the current state of a model. However, the conceptual model datasets commonly used for such machine learning research, often mined from public software repositories, frequently suffer from significant quality issues, including duplicate models, trivial examples, and multilingual model element names.Beyond data quality, the multimodal nature of conceptual models, where information is conveyed through both semantic descriptions and structural relationships, poses an additional difficulty for the development of robust model completion tools. In particular, the transformation of Unified Modeling Language (UML) models into machine-readable representations often introduces a loss of information: approaches based on textual linearization disregard structural dependencies, whereas graph-based representations may lose the semantic richness of the model element names.This study introduces a comprehensive data cleansing pipeline specifically designed for UML model datasets, combining heuristics filtering for dummy models, similarity-based clone detection, and language filtering. In addition, a recommender system for UML class diagram completion is developed by fine-tuning a hybrid architecture that integrates Graph Neural Networks (GNNs) and Large Language Models (LLMs). This resulting model can recommend missing modeling elements, including class names, attributes, operations, and relationship types.The proposed approach is evaluated through reproducibility studies measuring the effect of cleansing on downstream ML tasks, as well as through experiments on UML class diagram completion tasks, comparing the performance of the fine-tuned model against a zero-shot baseline. The results demonstrate the potential of combining a UML-specific cleansing pipeline with a multimodal GNN-LLM auto-completion approach, pointing toward a more data-centric and structurally aware direction for machine learning in MDE.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

LLM

dc.subject

GNN

dc.subject

Recommender System

dc.subject

Model-Driven Engineering

dc.subject

Software Engineering

dc.subject

Data Cleansing Pipeline

dc.subject

UML

dc.subject

Machine Learning

dc.title

Data-Centric AI for Conceptual Modeling: Cleansed Data and GNN-LLM based Recommender for UML Class Diagrams

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2026.133242

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Andjela Djelic

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Neidhardt, Julia

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17852658

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0001-8259-2297

tuw.assistant.orcid

0000-0001-7184-1841

item.languageiso639-1

item.grantfulltext

open

item.fulltext

with Fulltext

item.mimetype

application/pdf

item.openairetype

master thesis

item.openaccessfulltext

Open Access

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.cerifentitytype

Publications

crisitem.author.dept

E194-03 - Forschungsbereich Business Informatics

crisitem.author.parentorg

E194 - Institut für Information Systems Engineering

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2.23 MB)

In Copyright

Show simple item record

Google Scholar^TM

Check

Google ScholarTM

Google Scholar^TM