Braunsberger, T. (2016). Automatische Methoden zur Reinigung von zeit-orientierten Daten [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.32205
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2016
-
Number of Pages:
111
-
Keywords:
data cleansing; time-oriented data; automated methods
en
Abstract:
Zeit-orientierte Daten sind von großer Bedeutung, da sie beinahe in jedem Datenbestand vorkommen. Sei es nun in Form von Stundenlisten über die Arbeitszeiten der Mitarbeiter oder in detaillierten Listen über die Verkaufsstatistiken eines Onlinehändlers. Wie alle anderen Datensätze neigt auch diese Art von Daten dazu fehlerhaft zu sein. Diese Fehler manuell zu korrigieren würde viel Zeit und Aufwand bedeuten und somit auch hohe Kosten verursachen. Manche Schätzungen besagen sogar, dass bis zu 40% der Daten in einer Datenbank mangelhaft sind. Obwohl es bereits viele Methoden und Tools gibt, um 'schmutzige' Daten zu bereinigen, so werden die speziellen Charakteristiken von zeitbezogenen Daten nur selten berücksichtigt. Ansätze können ausgewählte Probleme, die bei zeit-orientierten Daten auftreten, beheben, aber kaum wird Zeit als potentielle Fehlerquelle berücksichtigt. Daher haben wir einen wissenschaftlichen Prototypen entwickelt, der (halb-)automatische Operationen zur Verfügung stellt um möglichst viele Fehler in zeit-orientierten Daten beseitigen zu können. Die meisten Operationen setzen kein spezielles Wissen über die angewandten Methoden voraus und sind daher für eine breite Masse zugänglich und verwendbar. In einer Evaluationsstudie haben wir die Nützlichkeit des entwickelten Prototypen untersucht und einige Verbesserungsmöglichkeiten abgeleitet.
de
Time-oriented data are of great importance as they are found in almost any database. May it be in terms of a record of working hours or a detailed list of sales statistics in an online shop. However, as it is the case with any other data these records tend to contain errors and correcting them manually would require a lot of effort and time, and thus, high costs. Some estimations go so far as to say that up to 40% of data contains errors. There are many methods and tools that focus on cleansing 'dirty' data, however, they rarely focus on time-oriented data. Some tools may help with a few time-oriented data problems, but time is hardly considered to be the main target. Those, who set a goal to deal with 'dirty' time-oriented data are mostly focused on a visual representation to make the task of error detection easier for the user. This led us to implement a research prototype that provides (semi-)automatic operations in order to take care of many possible time-oriented quality problems. Most of them do not require any further knowledge of the methods applied and hence, are ready to use by a large audience. We have evaluated the prototype in a usability study and derived suggestions for possible improvement.
en
Additional information:
Zusammenfassung in deutscher Sprache Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers