Spechtenhauser, F. (2016). Visual analytics for rule-based quality management of multivariate data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.25125
E186 - Institut für Computergraphik und Algorithmen
-
Date (published):
2016
-
Number of Pages:
104
-
Keywords:
visual analytics; multivariate data
de
Abstract:
In der heutigen Zeit, in der die Menge an gesammelten und generierten Daten stetig ansteigt, ist das Sicherstellen einer ausreichenden Datenqualität ein entscheidendes Thema. Abhängig von der gegebenen Aufgabenstellung können sogar aufwändige Analysemethoden fehlschlagen oder irreführende Ergebnisse liefern, wenn der gegebene Datensatz eine unzureichende Qualität aufweist. Um Datenprobleme, wie zum Beispiel fehlende Werte oder Anomalien zu entdecken, werden häufig automatische Plausibilitätschecks verwendet, die auf definierten Regeln basieren. Die Definition und Verwendung solcher Regeln und deren Ergebnisse stellt jedoch eine große Herausforderung dar. Visualisierung ist dabei ein mächtiges Tool, um unerwartete Datenqualitätsprobleme aufzudecken und die Ergebnisse der angewandten Regeln zu validieren. Visual Analytics schließt dabei die Lücke zwischen automatischer Datenanalyse und Visualisierung und hilft bei der Definition und Optimierung der Plausibilitätschecks, damit sie für eine wiederkehrende Analyse und Validierung der entdeckten Datenqualitätsprobleme verwendet werden können. Diese Diplomarbeit besteht aus einer Design Study des Data Quality Overview, einem Visual Analytics Ansatz, der eine detaillierte und trotzdem skalierbare Übersicht über die Ergebnisse der definierten Plausibilitätschecks liefert, die über mehrere Detailstufen validiert und untersucht werden können. Der Ansatz basiert auf einer detaillierten Aufgabenanalyse, und wurde mithilfe einer Fallstudie basierend auf Sensordaten aus dem Energiebereich validiert. Zusätzlich wurden die Ergebnisse durch Expertenrückmeldungen bestätigt.
de
Ensuring an appropriate data quality is a critical topic when analyzing the ever increasing amounts of data collected and generated in today's world. Depending on the given task, even sophisticated analysis methods may cause misleading results due to an insufficient quality of the data set at hand. In this case, automated plausibility checks based on defined rules are frequently used to detect data problems such as missing data or anomalies. However, defining such rules and using their results for an efficient data quality assessment is a challenging topic. Visualization is powerful to reveal unexpected problems in the data, and can additionally be used to validate results of applied automated plausibility checks. Visual Analytics closes the gap between automated data analysis and visualization by providing means to guide the definition and optimization of plausibility checks in order to use them for a continuous detection and validation of problems detected in the data. This diploma thesis provides a design study of a Visual Analytics approach, called Data Quality Overview, which provides a detailed, yet scalable summary of the results of defined plausibility checks, and includes means for validation and investigation of these results at various levels of detail. The approach is based on a detailed task analysis of data quality assessment, and is validated using a case study based on sensor data from the energy sector in addition to feedback collected from domain experts.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers Zusammenfassung in deutscher Sprache