Ziegelbecker, T. (2016). Ein visueller Ansatz zur Exploration von Datenqualitätsproblemen in multivariaten und zeitorientierten Daten [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.25484
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2016
-
Number of Pages:
101
-
Keywords:
Visual Analytics; Informationsvisualisierung; Time
de
Abstract:
Bei annähernd jedem Schritt den wir heutzutage tätigen, werden Daten gespeichert. In vielen Fällen handelt es sich dabei allerdings um fehlerhafte Daten, wobei die Gründe dafür sehr vielfältig sein können. Diese reichen einerseits von Mängeln, wie beispielsweise Messungenauigkeit, über Messfehler bis hin zu menschlichem Versagen. Problematisch werden die fehlerhaften Daten vor allem dann, wenn zum Beispiel Analysten unwissentlich ihre Entscheidungen auf deren Basis treffen. Mögliche Konsequenzen aus diesen Entscheidungen können beispielsweise falsche Schlussfolgerungen sein, die wiederum zu höheren Kosten führen können. Eine Möglichkeit dieses Problem zu adressieren, ist die Qualität der fehlerhaften Daten zu visualisieren, um damit bei den Entscheidungsträgern ein Bewusstsein für die Problematik zu schaffen. Darüber hinaus haben Forschungsergebnisse gezeigt, dass die Visualisierung von Datenqualitätsproblemen die Entscheidungsfindung verbessert. Trotz dieser Beobachtung wurde bisher auf dem Gebiet der Datenqualitätsvisualisierung von uni- und multivariaten Daten nur wenig Forschung betrieben. Der Schwerpunkt dieser Arbeit liegt aus den genannten Gründen auf der Visualisierung von Datenqualitätsproblemen und ihrer Integration in den Datenexplorationsprozess. Das primäre Ziel dabei ist, einen neuen Ansatz zu finden, der die Qualitätsprobleme von multivariaten und zeitorientierten Daten sowohl im Überblick als auch im Detail darstellt. Zu diesem Zweck wird ein Domänenproblem aus der Bohrindustrie herangezogen. Bei den von mehreren Sensoren zur Verfügung gestellten Daten handelt es sich um Bohrdaten, welche unter anderem fehlende Werte, ungültige Werte und Ausreißer enthalten. Zur Lösung dieser Probleme werden die vorhandenen Visualisierungsmöglichkeiten bewertet und auf deren Grundlage Gestaltungsmöglichkeiten entwickelt um Datenqualitätsprobleme sowohl im Überblick als auch im Detail darzustellen. In einem nachfolgenden Schritt werden die zuvor getroffenen Designentscheidungen im Rahmen eines Prototyps implementiert und im Zuge von Experteninterviews evaluiert. Die Ergebnisse dieser Interviews werden zusammengefasst, diskutiert und als Argumentationsgrundlage für zukünftige Designentscheidungen festgehalten. Darüber hinaus bieten die Ergebnisse auch Argumente für bestimmte Interaktionstechniken sowie Einblicke in die zur Implementierung eingesetzten Algorithmen und Technologien. Die abschließenden Ergebnisse lassen Schlussfolgerungen hinsichtlich der Auswahl von Ansätzen zur Visualisierung von Datenqualitätsproblemen zu und bilden die Grundlage für weitere Forschung.
de
Today we produce and capture data at almost each and every step. In many cases, this data is imperfect, due to various defects such as sensor variability, errors in measurement, or by human error. Analysts and decision makers unknowingly base their decisions on such imperfect data, which often leads to poor decisions and high costs. One way to address this problem is to visualize data quality problems to make decision makers more aware of them. Despite existing literature proving that data quality visualization improves decision-making, only little research has been conducted in the field of univariate and multivariate data quality visualization. Therefore, the focus of this work will be on incorporating data quality visualization into the data exploration process, where the main contribution is to provide a novel approach for visualizing data quality problems of multivariate time-oriented data in both, overview and detail. For this purpose, a particular domain problem from the drilling industry will be used. The data itself is provided from multiple sensors that transmit time-stamped raw drilling-data, which contains data quality problems such as missing values, invalid values and outliers. In this work I examine existing data quality visualizations for multivariate time-oriented data. Based on this literature research I develop and discuss several design options in overview and detail for visualizing the data quality problems identified in combination with the domain problem. In a subsequent step I implement selected design approaches in a prototype and evaluate them in the context of expert interview sessions. The results of these session are then reported and discussed, providing further rationales for the design choices made. In addition, the results also provide arguments for specific interaction techniques (i.e., combined interactive views) as well as they offer insights into algorithms and technologies used. Overall, the results give conclusions for selecting data quality visualization approaches and make suggestions for further research areas such as the aggregation algorithms for data quality problems.
en
Additional information:
Zusammenfassung in deutscher Sprache Text in englischer Sprache