Handling data completeness using statistical experiments: A case study on open-source and industry data

Eggerth, Cordula Thekla

doi:10.34726/hss.2022.97680

DC Field

Value

Language

dc.contributor.advisor

Winkler, Dietmar

dc.contributor.author

Eggerth, Cordula Thekla

dc.date.accessioned

2022-11-07T07:59:14Z

dc.date.issued

2022

dc.date.submitted

2022-10

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Eggerth, C. T. (2022). <i>Handling data completeness using statistical experiments: A case study on open-source and industry data</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.97680</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2022.97680

dc.identifier.uri

http://hdl.handle.net/20.500.12708/108503

dc.description.abstract

Der Grad der Datenvollständigkeit ist eine der Hauptdimensionen von Datenqualität. Wenn daher Datenqualität als Ganzes behandelt werden soll, kann die Performance in Form der gewählten Kennzahlen durch die Betrachtung verschiedener Arten die Datenqualität zu steigern und mit fehlenden Werten umzugehen im positiven Sinne beeinflusst werden. Da eine gewisse Datenqualität die Voraussetzung für die erfolgreiche Umsetzung von industriellen Anwendungen beispielsweise in CPPS-Engineering ist, können durch das Feststellen der vielversprechendsten Methode im Umgang mit fehlenden Werten wesentlich bessere Ergebnisse erzielt werden. Demnach strebt diese Masterarbeit an, Einblicke sowohl von der theoretische Seite in Form von wissenschaftlichen Publikationen als auch von praktischer Seite, d.h. Personen, die im beruflichen Alltag mit unvollständigen Datensätzen konfrontiert sind, zu vergleichen. Das Ziel des Literature Review und der Onlineumfrage unter Praktikern war es, Informationen zu den jeweiligen Präferenzen im Umgang mit unvollständigen Daten zu sammeln. Die darauffolgenden statistischen Experimente wurden im Rahmen von jeweils einer Open-Source-Fallstudie und einer Industriefallstudie, der Sensordaten eines Produktionsprozesses zugrunde liegen, durchgeführt. Im Zuge dessen wurden sechs Methoden zur Handhabung fehlender Werte in Kombination mit vier Anteilen fehlender Daten anhand von Ausführungszeit der Algorithmen, direkter Bewertung sowie indirekter Bewertung, letztere in Bezug auf RMSE und MAE, evaluiert. Hierbei zeigte sich, das jene Methoden mit der jeweils besten und schlechtesten Performance auch über die Fallstudien hinweg sehr ähnlich waren, aber wesentlich von der gewählten Kennzahl abhängen.

dc.description.abstract

Data completeness is one of the main data quality dimensions. Thus, to tackle data quality as a whole, considering different ways to enhance data quality in incomplete datasets can illustrate the performance impact on the chosen metrics. As sufficiently high data quality is a prerequisite for industrial applications for instance in CPPS engineering, determining the most promising method to handle missing values can essentially contribute to obtain better results. Therefore, this thesis aimed to bring together insights from both the theoretical side of research publications and the missing handling methods suggested in comparison to the perspective of practitioners in jobs confronted with incomplete data. Both the literature review of research publications and the online survey among practitioners as to handling missing data were intended to obtain information on the respective preferences. The subsequent statistical experiments were carried out in line with an open-source case study (in the natural resources sector) and an industry case study (using sensor data from a manufacturing process) to evaluate six missing value handling methods in combination with four different missing data rates in the underlying datasets according to the execution time of the imputation methods, direct evaluation as well as indirect evaluation, the latter with respect to RMSE and MAE. It turned out that the best and worst performing methods are similar across the case studies, but depend on the target performance metric.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Datenqualität

dc.subject

Fehlende Werte

dc.subject

Datenvollständigkeit

dc.subject

Statistische Experimente

dc.subject

Onlineumfrage

dc.subject

Machine Learning

dc.subject

CPPS

dc.subject

Cyber-Physische Produktionssysteme

dc.subject

Data Quality

dc.subject

Missing Values

dc.subject

Data Completeness

dc.subject

Statistical Experiments

dc.subject

Online Survey

dc.subject

Machine Learning

dc.subject

CPPS

dc.subject

Cyber-Physical Production Systems

dc.title

Handling data completeness using statistical experiments: A case study on open-source and industry data

dc.title.alternative

Der Umgang mit fehlenden Werten - Theorie vs. Praxis: Eine Fallstudie basierend auf Open-Source- und Industriedaten

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2022.97680

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Cordula Thekla Eggerth

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Biffl, Stefan

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC16685201

dc.description.numberOfPages

185

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0002-4743-3124

tuw.assistant.orcid

0000-0002-3413-7780

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

E194 - Institut für Information Systems Engineering

crisitem.author.parentorg

E180 - Fakultät für Informatik

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(6.56 MB)

In Copyright

Show simple item record

Page view(s)

397

checked on Nov 22, 2023

Download(s)

284

checked on Nov 22, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM