Title: Automatische Methoden zur Reinigung von zeit-orientierten Daten
Other Titles: Automatic Cleansing Operations of Time-Oriented Data
Language: English
Authors: Braunsberger, Thomas 
Qualification level: Diploma
Keywords: data cleansing; time-oriented data; automated methods
Advisor: Miksch, Silvia  
Assisting Advisor: Gschwandtner, Theresia 
Issue Date: 2016
Number of Pages: 111
Qualification level: Diploma
Abstract: 
Zeit-orientierte Daten sind von großer Bedeutung, da sie beinahe in jedem Datenbestand vorkommen. Sei es nun in Form von Stundenlisten über die Arbeitszeiten der Mitarbeiter oder in detaillierten Listen über die Verkaufsstatistiken eines Onlinehändlers. Wie alle anderen Datensätze neigt auch diese Art von Daten dazu fehlerhaft zu sein. Diese Fehler manuell zu korrigieren würde viel Zeit und Aufwand bedeuten und somit auch hohe Kosten verursachen. Manche Schätzungen besagen sogar, dass bis zu 40% der Daten in einer Datenbank mangelhaft sind. Obwohl es bereits viele Methoden und Tools gibt, um 'schmutzige' Daten zu bereinigen, so werden die speziellen Charakteristiken von zeitbezogenen Daten nur selten berücksichtigt. Ansätze können ausgewählte Probleme, die bei zeit-orientierten Daten auftreten, beheben, aber kaum wird Zeit als potentielle Fehlerquelle berücksichtigt. Daher haben wir einen wissenschaftlichen Prototypen entwickelt, der (halb-)automatische Operationen zur Verfügung stellt um möglichst viele Fehler in zeit-orientierten Daten beseitigen zu können. Die meisten Operationen setzen kein spezielles Wissen über die angewandten Methoden voraus und sind daher für eine breite Masse zugänglich und verwendbar. In einer Evaluationsstudie haben wir die Nützlichkeit des entwickelten Prototypen untersucht und einige Verbesserungsmöglichkeiten abgeleitet.

Time-oriented data are of great importance as they are found in almost any database. May it be in terms of a record of working hours or a detailed list of sales statistics in an online shop. However, as it is the case with any other data these records tend to contain errors and correcting them manually would require a lot of effort and time, and thus, high costs. Some estimations go so far as to say that up to 40% of data contains errors. There are many methods and tools that focus on cleansing 'dirty' data, however, they rarely focus on time-oriented data. Some tools may help with a few time-oriented data problems, but time is hardly considered to be the main target. Those, who set a goal to deal with 'dirty' time-oriented data are mostly focused on a visual representation to make the task of error detection easier for the user. This led us to implement a research prototype that provides (semi-)automatic operations in order to take care of many possible time-oriented quality problems. Most of them do not require any further knowledge of the methods applied and hence, are ready to use by a large audience. We have evaluated the prototype in a usability study and derived suggestions for possible improvement.
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-2232
http://hdl.handle.net/20.500.12708/2431
Library ID: AC13103398
Organisation: E188 - Institut für Softwaretechnik und Interaktive Systeme 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

Show full item record

Page view(s)

37
checked on Feb 18, 2021

Download(s)

122
checked on Feb 18, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.