Title: Heuristiken zur Variablenselektion bei hochdimensionalen Daten
Language: Deutsch
Authors: Seyfang, Leonhard 
Qualification level: Diploma
Keywords: Variablenselektion; Variablenauswahl; Multivariante Daten; R; Informationskriterium
Advisor: Filzmoser, Peter
Issue Date: 2008
Number of Pages: 79
Qualification level: Diploma
Abstract: 
In dieser Arbeit werden einige Heuristiken zur Variablenselektion bei großen multivariaten Datensätzen verglichen.
Dabei werden sowohl einfache, schnelle als auch aufwändigere und kombinierte Methoden betrachtet.
Für alle behandelten Methoden und einige Hilfsfunktionen ist der R-Code angegeben.
Die verschiedenen Heuristiken führen zu sehr unterschiedlichen Modellen im Hinblick auf die beteiligten Variablen.
Bezüglich des optimierten Gütekriteriums und des simulierten Prognosefehlers unterscheiden sich die Resultate aber nur wenig.
Einige Methoden wurden bezüglich ihrer Robustheit auf Veränderung der Trainingsdaten untersucht.
Dabei wurde festgestellt, dass die resultierenden Modelle stärker von dem verwendeten Teil-Datensatz als von der verwendeten Methode abhängen.
Weiters wird die Erzeugung künstlicher Datensätze diskutiert und eine Funktion zu diesem Zweck vorgestellt.
Hilfsmethoden, u. a. zur Reduktion von großen Datensätzen, für die Kreuzvalidierung und für die Referenzmethode Stepwise sind ebenfalls angegeben.

This work compares several subset selection techniques for large datasets.
Simple, fast, as well as more complex and combined heuristics are considered.
For all described methods and some subroutines the R-code is listed.
The different methods lead to very varying models regarding the involved variables.
However, in terms of the optimised information criterion and the simulated prediction error the models are quite similar.
The robustness in relation to the used data portion was evaluated for several algorithms.
It was found, that the results tend to depend on the used data portion rather than on the used selection technique.
Furthermore the generation of artificial datasets is discussed and a method for this purpose is introduced.
Subroutines, among other tools for downsizing datasets, for cross-validation and the standard method 'stepwise', are given.
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-19644
http://hdl.handle.net/20.500.12708/14005
Library ID: AC05036741
Organisation: E105 - Institut für Statistik und Wahrscheinlichkeitstheorie 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

Show full item record

Page view(s)

17
checked on Feb 18, 2021

Download(s)

77
checked on Feb 18, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.