<div class="csl-bib-body">
<div class="csl-entry">Schneider, A. (2025). <i>Template-Guided Rule Generation and Evaluation for Data Quality using Large Language Models</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.135903</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.135903
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/221852
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description.abstract
Hochwertige Daten sind essentiell für zuverlässige datengetriebene Systeme, dennoch stehen Organisationen vor erheblichen Herausforderungen bei der systematischen Sicherstellung der Datenqualität. Traditionelle Ansätze verlassen sich stark auf Domänenexperten, um Datenqualitätsregeln manuell zu definieren. Dieser Prozess ist kostspielig, zeitaufwändig und schwer zu skalieren ist. Bestehende automatisierte Verfahren sind oft auf enge statistische Muster beschränkt und verfügen nicht über das notwendige semantische Verständnis um domänenspezifische Regeln zu bewerten. Diese Arbeit präsentiert ein Framework zur automatisierten Generierung und Evaluierung von Datenqualitätsregeln mit Hilfe von Large Language Models (LLMs). Das zentrale Element ist ein template-basierter Generierungsprozess, der LLMs durch strukturierte Vorgaben gezielt in der Regelbildung steuert und so die Grenzen naiver Prompting-Strategien überwindet. Für die Bewertung wird ein mehrstufiger Prozess eingeführt. Die neu entwickelte Metrik Semantic Score misst die Effektivität von Regeln anhand tatsächlicher Regelverletzungen, während ein Business Domain Judge unangemessene oder semantisch bedeutungslose Regeln herausfiltert. Die Evaluierung anhand von drei Datensätzen zeigt, dass der Ansatz 75-100% der expertendefinierten Regeln generiert und zusätzliche wertvolle Regeln entdeckt. Die Semantic-Score Metrik wurde durch synthetische Verletzungen validiert und zeigt eine durchschnittliche Erhöhung von 41% bei betroffenen Regeln gegenüber nur 1,7% Variation im Kontrollset. Zusätzlich wurde der Business Domain Judge im Bezug auf Zuverlässigkeit evaluiert und statistisch ausgewertet. Diese Arbeit demonstriert, dass LLM-basierte Frameworks die Regelgenerierung und Evaluierung effektiv automatisieren können, wodurch die Abhängigkeit von Domänenexperten reduziert wird. Offene Fragen bestehen hinsichtlich der Verlässlichkeit der Evaluierungsprozesse in verschiedenen Anwendungsdomänen und der Vollständigkeit des Generierungsprozesses.
de
dc.description.abstract
High-quality data is fundamental to reliable data-driven systems, yet organizations face significant challenges in systematically ensuring data quality as datasets grow in volume and complexity. Traditional approaches rely heavily on domain experts to manually define data quality rules. This process is costly, time-consuming and difficult to scale. While automated rule mining methods exist, they are often limited to narrow statistical patterns and lack the semantic understanding necessary to capture meaningful, domain-specific constraints. This thesis proposes a novel framework for automated data quality rule generation and evaluation by leveraging Large Language Models (LLMs). The core contribution is a template-driven rule generation approach that guides LLMs using structured templates specifying rule complexity and shape, systematically addressing the limitations of naive LLM prompting while potentially enabling the discovery of novel constraints beyond conventional categories. To evaluate the many candidate rules generated, the framework introduces a multi-step evaluation process. A novel semantic-score metric measures a rule’s effectiveness in identifying genuine data errors using an LLM-as-a-Judge system to classify rule violations. A subsequent Business Domain Judge filters out domain-inappropriate, overly specific, or semantically meaningless rules. Evaluation on three datasets demonstrates that the template-driven approach successfully generates 75-100% of expert-defined golden rules while discovering additional valuable constraints. The semantic-score metric was validated by introducing synthetic violations, showing an average 41% improvement for rules detecting these violations versus only 1.7% variation in control rules. The Business Domain Judge demonstrated strong reliability on clearly defined domains while appropriately reflecting genuine domain uncertainties. This work demonstrates that LLM-based frameworks can effectively automate both rule generation and evaluation when provided with appropriate structural guidance, reducing reliance on domain experts while maintaining rule quality and coverage. Open questions remain regarding judge reliability across different domains and the completeness guarantees of the generation process.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Datenqualitaet
de
dc.subject
LLM
de
dc.subject
Regeln
de
dc.subject
Large Language Models
en
dc.subject
Data Quality Management
en
dc.subject
Template-Driven Rule Generation
en
dc.subject
Automated Constraint Discovery
en
dc.subject
LLM-as-a-Judge
en
dc.subject
Denial Constraints
en
dc.subject
Database Integrity Rules
en
dc.subject
LLM-based Data Quality
en
dc.subject
Semantic Score
en
dc.subject
Synthetic Violation Generation
en
dc.title
Template-Guided Rule Generation and Evaluation for Data Quality using Large Language Models