Heuristiken zur Variablenselektion bei hochdimensionalen Daten

Seyfang, Leonhard

Record link:

https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-19644
http://hdl.handle.net/20.500.12708/14005

Title:

Heuristiken zur Variablenselektion bei hochdimensionalen Daten

Citation:

Seyfang, L. (2008). Heuristiken zur Variablenselektion bei hochdimensionalen Daten [Master Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-19644

CatalogPlus:

AC05036741

Publication Type:

Thesis - Masterarbeit

Language:

German

Authors:

Seyfang, Leonhard

Advisor:

Filzmoser, Peter

Organisational Unit:

E105 - Institut für Statistik und Wahrscheinlichkeitstheorie

Date (published):

2008

Number of Pages:

Keywords:

Variablenselektion; Variablenauswahl; Multivariante Daten; R; Informationskriterium

Abstract:

In dieser Arbeit werden einige Heuristiken zur Variablenselektion bei großen multivariaten Datensätzen verglichen. Dabei werden sowohl einfache, schnelle als auch aufwändigere und kombinierte Methoden betrachtet. Für alle behandelten Methoden und einige Hilfsfunktionen ist der R-Code angegeben. Die verschiedenen Heuristiken führen zu sehr unterschiedlichen Modellen im Hinblick auf die beteiligten Variablen. Bezüglich des optimierten Gütekriteriums und des simulierten Prognosefehlers unterscheiden sich die Resultate aber nur wenig. Einige Methoden wurden bezüglich ihrer Robustheit auf Veränderung der Trainingsdaten untersucht. Dabei wurde festgestellt, dass die resultierenden Modelle stärker von dem verwendeten Teil-Datensatz als von der verwendeten Methode abhängen. Weiters wird die Erzeugung künstlicher Datensätze diskutiert und eine Funktion zu diesem Zweck vorgestellt. Hilfsmethoden, u. a. zur Reduktion von großen Datensätzen, für die Kreuzvalidierung und für die Referenzmethode Stepwise sind ebenfalls angegeben.

This work compares several subset selection techniques for large datasets. Simple, fast, as well as more complex and combined heuristics are considered. For all described methods and some subroutines the R-code is listed. The different methods lead to very varying models regarding the involved variables. However, in terms of the optimised information criterion and the simulated prediction error the models are quite similar. The robustness in relation to the used data portion was evaluated for several algorithms. It was found, that the results tend to depend on the used data portion rather than on the used selection technique. Furthermore the generation of artificial datasets is discussed and a method for this purpose is introduced. Subroutines, among other tools for downsizing datasets, for cross-validation and the standard method 'stepwise', are given.

Additional information:

Zsfassung in engl. Sprache

License:

In Copyright

Appears in Collections:

Thesis