<div class="csl-bib-body">
<div class="csl-entry">Seyfang, L. (2008). <i>Heuristiken zur Variablenselektion bei hochdimensionalen Daten</i> [Master Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-19644</div>
</div>
In dieser Arbeit werden einige Heuristiken zur Variablenselektion bei großen multivariaten Datensätzen verglichen.<br />Dabei werden sowohl einfache, schnelle als auch aufwändigere und kombinierte Methoden betrachtet.<br />Für alle behandelten Methoden und einige Hilfsfunktionen ist der R-Code angegeben.<br />Die verschiedenen Heuristiken führen zu sehr unterschiedlichen Modellen im Hinblick auf die beteiligten Variablen.<br />Bezüglich des optimierten Gütekriteriums und des simulierten Prognosefehlers unterscheiden sich die Resultate aber nur wenig.<br />Einige Methoden wurden bezüglich ihrer Robustheit auf Veränderung der Trainingsdaten untersucht.<br />Dabei wurde festgestellt, dass die resultierenden Modelle stärker von dem verwendeten Teil-Datensatz als von der verwendeten Methode abhängen.<br />Weiters wird die Erzeugung künstlicher Datensätze diskutiert und eine Funktion zu diesem Zweck vorgestellt.<br />Hilfsmethoden, u. a. zur Reduktion von großen Datensätzen, für die Kreuzvalidierung und für die Referenzmethode Stepwise sind ebenfalls angegeben.<br />
de
dc.description.abstract
This work compares several subset selection techniques for large datasets.<br />Simple, fast, as well as more complex and combined heuristics are considered.<br />For all described methods and some subroutines the R-code is listed.<br />The different methods lead to very varying models regarding the involved variables.<br />However, in terms of the optimised information criterion and the simulated prediction error the models are quite similar.<br />The robustness in relation to the used data portion was evaluated for several algorithms.<br />It was found, that the results tend to depend on the used data portion rather than on the used selection technique.<br />Furthermore the generation of artificial datasets is discussed and a method for this purpose is introduced.<br />Subroutines, among other tools for downsizing datasets, for cross-validation and the standard method 'stepwise', are given.<br />
en
dc.language
Deutsch
-
dc.language.iso
de
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Variablenselektion
de
dc.subject
Variablenauswahl
de
dc.subject
Multivariante Daten
de
dc.subject
R
de
dc.subject
Informationskriterium
de
dc.title
Heuristiken zur Variablenselektion bei hochdimensionalen Daten
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Leonhard Seyfang
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E105 - Institut für Statistik und Wahrscheinlichkeitstheorie