Heuristiken zur Variablenselektion bei hochdimensionalen Daten

Seyfang, Leonhard

DC Field

Value

Language

dc.contributor.advisor

Filzmoser, Peter

dc.contributor.author

Seyfang, Leonhard

dc.date.accessioned

2020-06-30T20:16:50Z

dc.date.issued

2008

dc.date.submitted

2008-02

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Seyfang, L. (2008). Heuristiken zur Variablenselektion bei hochdimensionalen Daten [Master Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-19644</div> </div>

dc.identifier.uri

https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-19644

dc.identifier.uri

http://hdl.handle.net/20.500.12708/14005

dc.description

Zsfassung in engl. Sprache

dc.description.abstract

In dieser Arbeit werden einige Heuristiken zur Variablenselektion bei großen multivariaten Datensätzen verglichen. Dabei werden sowohl einfache, schnelle als auch aufwändigere und kombinierte Methoden betrachtet. Für alle behandelten Methoden und einige Hilfsfunktionen ist der R-Code angegeben. Die verschiedenen Heuristiken führen zu sehr unterschiedlichen Modellen im Hinblick auf die beteiligten Variablen. Bezüglich des optimierten Gütekriteriums und des simulierten Prognosefehlers unterscheiden sich die Resultate aber nur wenig. Einige Methoden wurden bezüglich ihrer Robustheit auf Veränderung der Trainingsdaten untersucht. Dabei wurde festgestellt, dass die resultierenden Modelle stärker von dem verwendeten Teil-Datensatz als von der verwendeten Methode abhängen. Weiters wird die Erzeugung künstlicher Datensätze diskutiert und eine Funktion zu diesem Zweck vorgestellt. Hilfsmethoden, u. a. zur Reduktion von großen Datensätzen, für die Kreuzvalidierung und für die Referenzmethode Stepwise sind ebenfalls angegeben.

dc.description.abstract

This work compares several subset selection techniques for large datasets. Simple, fast, as well as more complex and combined heuristics are considered. For all described methods and some subroutines the R-code is listed. The different methods lead to very varying models regarding the involved variables. However, in terms of the optimised information criterion and the simulated prediction error the models are quite similar. The robustness in relation to the used data portion was evaluated for several algorithms. It was found, that the results tend to depend on the used data portion rather than on the used selection technique. Furthermore the generation of artificial datasets is discussed and a method for this purpose is introduced. Subroutines, among other tools for downsizing datasets, for cross-validation and the standard method 'stepwise', are given.

dc.language

Deutsch

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Variablenselektion

dc.subject

Variablenauswahl

dc.subject

Multivariante Daten

dc.subject

Informationskriterium

dc.title

Heuristiken zur Variablenselektion bei hochdimensionalen Daten

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Leonhard Seyfang

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E105 - Institut für Statistik und Wahrscheinlichkeitstheorie

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC05036741

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-19644

dc.thesistype

Masterarbeit

dc.thesistype

Master Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-8014-4682

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

TU Wien

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(980.92 kB)

In Copyright

Show simple item record

Google Scholar^TM

Check

Google ScholarTM

Google Scholar^TM