Interactive Multi-Agent Aggregation and Combination for Data Quality Assessment

Stöger, Philipp

doi:10.34726/hss.2026.131021

DC Field

Value

Language

dc.contributor.advisor

Sauter, Thilo

dc.contributor.author

Stöger, Philipp

dc.date.accessioned

2026-03-13T08:08:45Z

dc.date.issued

2026

dc.date.submitted

2026-02

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Stöger, P. (2026). <i>Interactive Multi-Agent Aggregation and Combination for Data Quality Assessment</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.131021</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2026.131021

dc.identifier.uri

http://hdl.handle.net/20.500.12708/226908

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Die Zuverlässigkeit datengetriebener Systeme hängt maßgeblich von ihrer „Fitness for Use“ (Gebrauchstauglichkeit) ab. Diese wird als die Fähigkeit eines Datensatzes definiert, spezifische Aufgaben oder Entscheidungskontexte zu unterstützen. In der Praxis wird diese Eigenschaft meist durch die Kombination mehrerer Kriterien der Datenqualität überprüft, statt sich auf eine einzelne Metrik zu verlassen. Aktuelle Systeme zur Datenqualitätssicherung erzwingen einen Kompromiss zwischen Ausdrucksstärke und Zugänglichkeit. Während Code-basierte Frameworks detaillierte und maßgeschneiderte Prüfungen ermöglichen, setzen sie Programmierkenntnisse voraus. Visuelle Lösungen hingegen reduzieren die Bewertung auf Dashboards oder aggregierte Scores. Diese präsentieren zwar Ergebnisse, legen jedoch die zugrunde liegenden Kombinationen aus Prüfungen und Annahmen nicht offen. Zudem führt die zunehmende Integration von Large Language Models zu einem „Black-Box-Verifikationsproblem“, wodurch Nutzer:innen gezwungen sind, verborgenen, generierten Regeln blind zu vertrauen. Um diesen Herausforderungen zu begegnen, schlägt diese Arbeit ein „Glassbox“-Interaktionsparadigma vor. Sie präsentiert Design, Implementierung und Evaluation eines webbasierten Prototyps, der Datenqualität als interaktive, gerichtete und azyklische Graphen modelliert. Der Prototyp ermöglicht das interaktive Hervorheben betroffener Datenfelder mithilfe einzelner Graph-Komponenten, um die Bewertungslogik transparent zu machen. Zusätzlich integrieren wir einen KI-Assistenten, der aus natürlicher Sprache editierbare Graphen erstellt.Die Evaluation durch eine Experten-Fokusgruppe und eine Nutzungsstudie (N = 14) zeigt, dass visuelle Aggregations- und Kombinationstechniken die Transparenz und Benutzbarkeit des Bewertungsprozesses verbessern. Technische Teilnehmer:innen der Studie lösten sowohl manuelle als auch KI-gestützte Aufgaben mit 100% Genauigkeit. Nichttechnische Teilnehmer erreichten 100% Genauigkeit bei der einfachen manuellen Aufgabe und 71,4% bei der komplexeren KI-gestützten Aufgabe. Teilnehmer:innen bevorzugten den KI-gestützten Prozess und bewerteten ihn mit einem „exzellenten“ System Usability Scale Ergebnis von 83,9. Trotz einzelner Ungenauigkeiten im Generierungsprozess (F1-Scores zwischen 0,74 und 0,83) eliminierte die KI die Hürde, komplexere Datenqualitätsabfragen ohne Vorlage zu starten. Die Ergebnisse deuten darauf hin, dass der primäre Mehrwert des KI-Assistenten in der Reduzierung des mentalen Aufwands liegt. Dadurch verlagert sich die Rolle von Fachexpert:innen von der imperativen Spezifikation hin zur deklarativen Verifikation.

dc.description.abstract

The reliability of data-driven systems depends on fitness for use, defined as a dataset’s ability to support specific downstream tasks or decision contexts. In practice, this property is checked by combining several data quality criteria rather than relying on a single metric. However, current data quality tools force a trade-off between expressiveness and accessibility. Code-based frameworks allow detailed and custom checks, but require coding expertise. Visual solutions reduce assessment to dashboards or aggregate scores, which summarise outcomes but fail to expose the underlying combinations of checks and assumptions. Furthermore, the emerging integration of Large Language Models introduces a black box verification problem, where users are forced to blindly trust opaque, generated rules. To address these challenges, this thesis proposes a glassbox interaction paradigm. It presents the design, implementation, and evaluation of a web-based prototype that models data quality as a visually interactive Directed Acyclic Graph. The system utilises interactive row highlighting to visually link graph components to specific data entries, thereby making the assessment logic transparent. Additionally, we integrate a multi-agent AI assistant to function as a drafting engine that translates natural language into editable graph structures. Evaluation through an expert Focus Group and a User Study (N=14) demonstrates that visual aggregation and combination techniques improve the transparency and usability of the data quality assessment process. Technical participants in the User Study solved both manual and AI-assisted tasks with 100% accuracy. Non-technical participants achieved a 100% accuracy on the simple manual task and 71.4% on the more complex AI assisted task. Overall, participants preferred the AI-assisted workflow and awarded it an “Excellent” System Usability Scale score of 83.9. Furthermore, despite some noise in the generation process (F1 Scores ranging from 0.74 to 0.83), the AI eliminated the need to start complex data quality assessment from scratch. The findings indicate that the primary value of the AI assistant lies in reducing cognitive friction, allowing domain experts to shift their role from imperative specification to declarative verification.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

data quality

dc.subject

data quality tools

dc.subject

data quality measurement

dc.subject

human-computer interaction

dc.subject

human-data interaction

dc.subject

human-AI interaction

dc.subject

data quality

dc.subject

data quality tools

dc.subject

data quality measurement

dc.subject

human-computer interaction

dc.subject

human-data interaction

dc.subject

human-AI interaction

dc.title

Interactive Multi-Agent Aggregation and Combination for Data Quality Assessment

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2026.131021

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Philipp Stöger

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Stippel, Christian

tuw.publication.orgunit

E384 - Institut für Computertechnik

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17801433

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0003-1559-8394

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.grantfulltext

open

item.cerifentitytype

Publications

item.openairetype

master thesis

item.mimetype

application/pdf

item.languageiso639-1

item.fulltext

with Fulltext

item.openaccessfulltext

Open Access

crisitem.author.dept

E384-01 - Forschungsbereich Software-intensive Systems

crisitem.author.parentorg

E384 - Institut für Computertechnik

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2 MB)

In Copyright

Show simple item record

Page view(s)

checked on Mar 13, 2026

Download(s)

checked on Mar 13, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM