Title: Contribution to the WebRowSet technology for advanced data preprocessing
Language: English
Authors: Lustig, Thomas 
Qualification level: Diploma
Keywords: WebRowSet Datenaufbereitung Datenschürfung KDD Grid Verteiltes Rechnen
WebRowSet Data Preprocessing Data Mining KDD Grid Computing Distributed Computing
Advisor: Brezany, Peter
Issue Date: 2008
Number of Pages: 98
Qualification level: Diploma
Abstract: 
Diese Diplomarbeit steht im Kontext des GridMiner Projekts am Institut für Scientific Computing der Universität Wien. Das GridMiner Projekt hat den Schwerpunkt auf der Wissensextraktion aus grossen Datenbasen (KDD Prozess). Die Aufgabe der Datenaufbereitung wird meistens auf einer gewöhnlichen Workstation ausgeführt, da für eine hohe Qualität des Ergebnisses oft eine manuelle Bearbeitung nötig ist und automatische Methoden nur bedingt eingesetzt werden können. Allerdings ergeben sich bei der Bearbeitung auf der Wokstation wesentliche Einschränkungen gegenüber dem Grid bezüglich des verfügbaren Speichers (RAM) und der Rechenleistung. Diese neuen Softwarekomponenten verfolgen einen out-of-core Ansatz und zeigen eine signifikant bessere Skalierung beim Verarbeiten von Daten als das bisher möglich war. Zur Optimierung der Rechenzeit auf der Workstation, wurden die nötigen statistischen Berechnungen der Rohdaten vom Client zum Server hin verlagert. Die Statistiken werden jetzt im Zuge eines definierten Workflows mittels des neu entwickelten Statistikmoduls berechnet und das Ergebnis im Anschluss als XML Daten zur Verfügung gestellt. Der Client kann dazu das Statistikmodul feingranular konfigurieren um unnötigen Rechenaufwand auf der Serverseite zu vermeiden.
Bereits existierende XML Bibliotheken und APIs wurden hinsichtlich ihres Speicherverbrauchs und der Zugriffsmöglichkeiten innerhalb der XML Struktur evaluiert. Dabei konnte keine Java Bibliothek gefunden werden, die sowohl wahlfreien Zugriff und minimalen Speicherverbrauch bietet. Um grosse WebRowSet Dateien verarbeiten zu können wurde die bereits vorhandene WebRowSet Schnittstelle von Java neu implementiert. Dabei wurde eine neue Indexierungsmethode gewählt um den benötigten Speicher gering zu halten.

The Austrian GridMiner project at the Institute of Scientific Computing at the University of Vienna has the aim to develop an e-Science infrastructure to support knowledge discovery tasks in databases (KDD). For this kind of applications, the Grid serves as the underlying architecture allowing to extend storage and computing power.
One major task of the KDD is the preprocessing stage, where huge datasets have to be processed. It consumes approximately 60% of the entire KDD processing time. That is the reason why it offers a significant potential for optimization. The preprocessing stage itself is often performed on workstation computers and not on the Grid, because the human interaction at some important subtasks of this stage provides a better quality than having everything done automatically. Therefore two major problems which need to be solved occur when carving out the data from the high performance Grid to a standard workstation: much lower main memory and CPU power. Just these issues are addressed by this Master Thesis.
The GridMiner architecture includes a subsystem of data access and integration based on the middleware called OGSA-DAI. To accelerate the preprocessing task, in our approach, the needed basic statistic calculations are shifted from the client side to the server side (the Grid). The statistics are calculated in advance inside the GridMiner. To optimize the main memory (RAM) consumption, the software provides an out-of-core design.
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-24072
http://hdl.handle.net/20.500.12708/13367
Library ID: AC05039346
Organisation: KEIN - 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

Show full item record

Page view(s)

22
checked on Feb 18, 2021

Download(s)

63
checked on Feb 18, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.