Handling data completeness using statistical experiments: A case study on open-source and industry data

Eggerth, Cordula Thekla

doi:10.34726/hss.2022.97680

Record link:

https://doi.org/10.34726/hss.2022.97680
http://hdl.handle.net/20.500.12708/108503

Title:

Handling data completeness using statistical experiments: A case study on open-source and industry data

Citation:

Eggerth, C. T. (2022). Handling data completeness using statistical experiments: A case study on open-source and industry data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.97680

reposiTUm DOI:

10.34726/hss.2022.97680

CatalogPlus:

AC16685201

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Eggerth, Cordula Thekla

Advisor:

Winkler, Dietmar

Co-advisor:

Biffl, Stefan

Organisational Unit:

E194 - Institut für Information Systems Engineering

Date (published):

2022

Number of Pages:

185

Keywords:

Datenqualität; Fehlende Werte; Datenvollständigkeit; Statistische Experimente; Onlineumfrage; Machine Learning; CPPS; Cyber-Physische Produktionssysteme

Data Quality; Missing Values; Data Completeness; Statistical Experiments; Online Survey; Machine Learning; CPPS; Cyber-Physical Production Systems

Abstract:

Der Grad der Datenvollständigkeit ist eine der Hauptdimensionen von Datenqualität. Wenn daher Datenqualität als Ganzes behandelt werden soll, kann die Performance in Form der gewählten Kennzahlen durch die Betrachtung verschiedener Arten die Datenqualität zu steigern und mit fehlenden Werten umzugehen im positiven Sinne beeinflusst werden. Da eine gewisse Datenqualität die Voraussetzung für die erfolgreiche Umsetzung von industriellen Anwendungen beispielsweise in CPPS-Engineering ist, können durch das Feststellen der vielversprechendsten Methode im Umgang mit fehlenden Werten wesentlich bessere Ergebnisse erzielt werden. Demnach strebt diese Masterarbeit an, Einblicke sowohl von der theoretische Seite in Form von wissenschaftlichen Publikationen als auch von praktischer Seite, d.h. Personen, die im beruflichen Alltag mit unvollständigen Datensätzen konfrontiert sind, zu vergleichen. Das Ziel des Literature Review und der Onlineumfrage unter Praktikern war es, Informationen zu den jeweiligen Präferenzen im Umgang mit unvollständigen Daten zu sammeln. Die darauffolgenden statistischen Experimente wurden im Rahmen von jeweils einer Open-Source-Fallstudie und einer Industriefallstudie, der Sensordaten eines Produktionsprozesses zugrunde liegen, durchgeführt. Im Zuge dessen wurden sechs Methoden zur Handhabung fehlender Werte in Kombination mit vier Anteilen fehlender Daten anhand von Ausführungszeit der Algorithmen, direkter Bewertung sowie indirekter Bewertung, letztere in Bezug auf RMSE und MAE, evaluiert. Hierbei zeigte sich, das jene Methoden mit der jeweils besten und schlechtesten Performance auch über die Fallstudien hinweg sehr ähnlich waren, aber wesentlich von der gewählten Kennzahl abhängen.

Data completeness is one of the main data quality dimensions. Thus, to tackle data quality as a whole, considering different ways to enhance data quality in incomplete datasets can illustrate the performance impact on the chosen metrics. As sufficiently high data quality is a prerequisite for industrial applications for instance in CPPS engineering, determining the most promising method to handle missing values can essentially contribute to obtain better results. Therefore, this thesis aimed to bring together insights from both the theoretical side of research publications and the missing handling methods suggested in comparison to the perspective of practitioners in jobs confronted with incomplete data. Both the literature review of research publications and the online survey among practitioners as to handling missing data were intended to obtain information on the respective preferences. The subsequent statistical experiments were carried out in line with an open-source case study (in the natural resources sector) and an industry case study (using sensor data from a manufacturing process) to evaluate six missing value handling methods in combination with four different missing data rates in the underlying datasets according to the execution time of the imputation methods, direct evaluation as well as indirect evaluation, the latter with respect to RMSE and MAE. It turned out that the best and worst performing methods are similar across the case studies, but depend on the target performance metric.

License:

In Copyright

Appears in Collections:

Thesis