Stöger, P. (2026). Interactive Multi-Agent Aggregation and Combination for Data Quality Assessment [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.131021
data quality; data quality tools; data quality measurement; human-computer interaction; human-data interaction; human-AI interaction
de
data quality; data quality tools; data quality measurement; human-computer interaction; human-data interaction; human-AI interaction
en
Abstract:
Die Zuverlässigkeit datengetriebener Systeme hängt maßgeblich von ihrer „Fitness for Use“ (Gebrauchstauglichkeit) ab. Diese wird als die Fähigkeit eines Datensatzes definiert, spezifische Aufgaben oder Entscheidungskontexte zu unterstützen. In der Praxis wird diese Eigenschaft meist durch die Kombination mehrerer Kriterien der Datenqualität überprüft, statt sich auf eine einzelne Metrik zu verlassen. Aktuelle Systeme zur Datenqualitätssicherung erzwingen einen Kompromiss zwischen Ausdrucksstärke und Zugänglichkeit. Während Code-basierte Frameworks detaillierte und maßgeschneiderte Prüfungen ermöglichen, setzen sie Programmierkenntnisse voraus. Visuelle Lösungen hingegen reduzieren die Bewertung auf Dashboards oder aggregierte Scores. Diese präsentieren zwar Ergebnisse, legen jedoch die zugrunde liegenden Kombinationen aus Prüfungen und Annahmen nicht offen. Zudem führt die zunehmende Integration von Large Language Models zu einem „Black-Box-Verifikationsproblem“, wodurch Nutzer:innen gezwungen sind, verborgenen, generierten Regeln blind zu vertrauen. Um diesen Herausforderungen zu begegnen, schlägt diese Arbeit ein „Glassbox“-Interaktionsparadigma vor. Sie präsentiert Design, Implementierung und Evaluation eines webbasierten Prototyps, der Datenqualität als interaktive, gerichtete und azyklische Graphen modelliert. Der Prototyp ermöglicht das interaktive Hervorheben betroffener Datenfelder mithilfe einzelner Graph-Komponenten, um die Bewertungslogik transparent zu machen. Zusätzlich integrieren wir einen KI-Assistenten, der aus natürlicher Sprache editierbare Graphen erstellt.Die Evaluation durch eine Experten-Fokusgruppe und eine Nutzungsstudie (N = 14) zeigt, dass visuelle Aggregations- und Kombinationstechniken die Transparenz und Benutzbarkeit des Bewertungsprozesses verbessern. Technische Teilnehmer:innen der Studie lösten sowohl manuelle als auch KI-gestützte Aufgaben mit 100% Genauigkeit. Nichttechnische Teilnehmer erreichten 100% Genauigkeit bei der einfachen manuellen Aufgabe und 71,4% bei der komplexeren KI-gestützten Aufgabe. Teilnehmer:innen bevorzugten den KI-gestützten Prozess und bewerteten ihn mit einem „exzellenten“ System Usability Scale Ergebnis von 83,9. Trotz einzelner Ungenauigkeiten im Generierungsprozess (F1-Scores zwischen 0,74 und 0,83) eliminierte die KI die Hürde, komplexere Datenqualitätsabfragen ohne Vorlage zu starten. Die Ergebnisse deuten darauf hin, dass der primäre Mehrwert des KI-Assistenten in der Reduzierung des mentalen Aufwands liegt. Dadurch verlagert sich die Rolle von Fachexpert:innen von der imperativen Spezifikation hin zur deklarativen Verifikation.
de
The reliability of data-driven systems depends on fitness for use, defined as a dataset’s ability to support specific downstream tasks or decision contexts. In practice, this property is checked by combining several data quality criteria rather than relying on a single metric. However, current data quality tools force a trade-off between expressiveness and accessibility. Code-based frameworks allow detailed and custom checks, but require coding expertise. Visual solutions reduce assessment to dashboards or aggregate scores, which summarise outcomes but fail to expose the underlying combinations of checks and assumptions. Furthermore, the emerging integration of Large Language Models introduces a black box verification problem, where users are forced to blindly trust opaque, generated rules. To address these challenges, this thesis proposes a glassbox interaction paradigm. It presents the design, implementation, and evaluation of a web-based prototype that models data quality as a visually interactive Directed Acyclic Graph. The system utilises interactive row highlighting to visually link graph components to specific data entries, thereby making the assessment logic transparent. Additionally, we integrate a multi-agent AI assistant to function as a drafting engine that translates natural language into editable graph structures. Evaluation through an expert Focus Group and a User Study (N=14) demonstrates that visual aggregation and combination techniques improve the transparency and usability of the data quality assessment process. Technical participants in the User Study solved both manual and AI-assisted tasks with 100% accuracy. Non-technical participants achieved a 100% accuracy on the simple manual task and 71.4% on the more complex AI assisted task. Overall, participants preferred the AI-assisted workflow and awarded it an “Excellent” System Usability Scale score of 83.9. Furthermore, despite some noise in the generation process (F1 Scores ranging from 0.74 to 0.83), the AI eliminated the need to start complex data quality assessment from scratch. The findings indicate that the primary value of the AI assistant lies in reducing cognitive friction, allowing domain experts to shift their role from imperative specification to declarative verification.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers