<div class="csl-bib-body">
<div class="csl-entry">Eggerth, C. T. (2022). <i>Handling data completeness using statistical experiments: A case study on open-source and industry data</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.97680</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2022.97680
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/108503
-
dc.description.abstract
Der Grad der Datenvollständigkeit ist eine der Hauptdimensionen von Datenqualität. Wenn daher Datenqualität als Ganzes behandelt werden soll, kann die Performance in Form der gewählten Kennzahlen durch die Betrachtung verschiedener Arten die Datenqualität zu steigern und mit fehlenden Werten umzugehen im positiven Sinne beeinflusst werden. Da eine gewisse Datenqualität die Voraussetzung für die erfolgreiche Umsetzung von industriellen Anwendungen beispielsweise in CPPS-Engineering ist, können durch das Feststellen der vielversprechendsten Methode im Umgang mit fehlenden Werten wesentlich bessere Ergebnisse erzielt werden. Demnach strebt diese Masterarbeit an, Einblicke sowohl von der theoretische Seite in Form von wissenschaftlichen Publikationen als auch von praktischer Seite, d.h. Personen, die im beruflichen Alltag mit unvollständigen Datensätzen konfrontiert sind, zu vergleichen. Das Ziel des Literature Review und der Onlineumfrage unter Praktikern war es, Informationen zu den jeweiligen Präferenzen im Umgang mit unvollständigen Daten zu sammeln. Die darauffolgenden statistischen Experimente wurden im Rahmen von jeweils einer Open-Source-Fallstudie und einer Industriefallstudie, der Sensordaten eines Produktionsprozesses zugrunde liegen, durchgeführt. Im Zuge dessen wurden sechs Methoden zur Handhabung fehlender Werte in Kombination mit vier Anteilen fehlender Daten anhand von Ausführungszeit der Algorithmen, direkter Bewertung sowie indirekter Bewertung, letztere in Bezug auf RMSE und MAE, evaluiert. Hierbei zeigte sich, das jene Methoden mit der jeweils besten und schlechtesten Performance auch über die Fallstudien hinweg sehr ähnlich waren, aber wesentlich von der gewählten Kennzahl abhängen.
de
dc.description.abstract
Data completeness is one of the main data quality dimensions. Thus, to tackle data quality as a whole, considering different ways to enhance data quality in incomplete datasets can illustrate the performance impact on the chosen metrics. As sufficiently high data quality is a prerequisite for industrial applications for instance in CPPS engineering, determining the most promising method to handle missing values can essentially contribute to obtain better results. Therefore, this thesis aimed to bring together insights from both the theoretical side of research publications and the missing handling methods suggested in comparison to the perspective of practitioners in jobs confronted with incomplete data. Both the literature review of research publications and the online survey among practitioners as to handling missing data were intended to obtain information on the respective preferences. The subsequent statistical experiments were carried out in line with an open-source case study (in the natural resources sector) and an industry case study (using sensor data from a manufacturing process) to evaluate six missing value handling methods in combination with four different missing data rates in the underlying datasets according to the execution time of the imputation methods, direct evaluation as well as indirect evaluation, the latter with respect to RMSE and MAE. It turned out that the best and worst performing methods are similar across the case studies, but depend on the target performance metric.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Datenqualität
de
dc.subject
Fehlende Werte
de
dc.subject
Datenvollständigkeit
de
dc.subject
Statistische Experimente
de
dc.subject
Onlineumfrage
de
dc.subject
Machine Learning
de
dc.subject
CPPS
de
dc.subject
Cyber-Physische Produktionssysteme
de
dc.subject
Data Quality
en
dc.subject
Missing Values
en
dc.subject
Data Completeness
en
dc.subject
Statistical Experiments
en
dc.subject
Online Survey
en
dc.subject
Machine Learning
en
dc.subject
CPPS
en
dc.subject
Cyber-Physical Production Systems
en
dc.title
Handling data completeness using statistical experiments: A case study on open-source and industry data
en
dc.title.alternative
Der Umgang mit fehlenden Werten - Theorie vs. Praxis: Eine Fallstudie basierend auf Open-Source- und Industriedaten
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2022.97680
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Cordula Thekla Eggerth
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Biffl, Stefan
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16685201
-
dc.description.numberOfPages
185
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-4743-3124
-
tuw.assistant.orcid
0000-0002-3413-7780
-
item.fulltext
with Fulltext
-
item.grantfulltext
open
-
item.languageiso639-1
en
-
item.mimetype
application/pdf
-
item.openairetype
master thesis
-
item.cerifentitytype
Publications
-
item.openaccessfulltext
Open Access
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
crisitem.author.dept
E194 - Institut für Information Systems Engineering