Title: Linear discriminant analysis for high dimensional data : a comparison of sparse classification methods
Language: English
Authors: Hoffmann, Irene 
Qualification level: Diploma
Advisor: Filzmoser, Peter 
Issue Date: 2014
Citation: 
Hoffmann, I. (2014). Linear discriminant analysis for high dimensional data : a comparison of sparse classification methods [Diploma Thesis]. reposiTUm. https://doi.org/10.34726/hss.2014.22581
Number of Pages: 79
Qualification level: Diploma
Abstract: 
Die lineare Diskriminanzanalyse ist eine beliebte und weitverbreitete Methode des überwachten Lernens. In dieser Arbeit wird detailliert auf zwei lineare Klassifikationsmethoden eingegangen, die zu äquivalenten Modellen führen. Dies sind Fishers LDA und der optimal scoring Ansatz, die jeweils durch ein Optimierungsproblem beschrieben werden. Diese Methoden sind jedoch auf solche Datensätze beschränkt, bei denen die Anzahl der Beobachtungen die der Variablen übersteigt. Daher werden die Optimierungsprobleme modifiziert, um auf hochdimensionale Daten angewandt werden zu können, indem man einen Penalty-Term hinzufügt und die Kovarianz innerhalb der Klassen als Diagonalmatrix schätzt. So erhält man Penalized LDA und sparse discriminant analysis. Die Anwendung eines L1 Penalty-Terms führt bei diesen Methoden zu Sparse Models. Qualitätsmerkmale für die Modelle sind die Genauigkeit der Vorhersage der Klassenzugehörigkeiten sowie die Sparsity, welche durch die zuverlässige Identifikation der beeinflussenden Variablen und die Reduktion des Rauschanteils bewertet wird. Es wird eine Simulationsstudie durchgeführt, um die Stärken und Schwächen der Methoden zu untersuchen, wenn diese auf Daten mit einem hohen Rauschanteil angewendet werden. Weiters wird die Qualität der Modelle anhand von zwei Datensätzen aus Genexpressions-Experimenten bewertet.

Linear discriminant analysis is a popular method for supervised classification, which performs well under various circumstances. In this thesis the equivalence of two linear classification methods is discussed in detail, namely Fisher's LDA and the optimal scoring approach, which is obtained from different optimization problems. These methods are limited to the analysis of data where the number of observations is higher than the number of predictor variables. Hence, the optimization problems are modified to be applicable in the high dimensional setting via penalization terms and diagonal within-class covariance estimates. The resulting methods are penalized LDA and sparse discriminant analysis, respectively. With an L1 penalization term sparse models are obtained with these methods. The criteria for the model quality are the prediction performance of the class memberships and the sparsity, which is evaluated by the identification of the influential variables and the reduction of the noise. A simulation study is conducted to investigate the strengths and weaknesses of the methods when applied to data with a high percentage of noise. Further, the quality of the models is evaluated for two gene expression data sets.
Keywords: discriminant analysis; sparsity
URI: https://doi.org/10.34726/hss.2014.22581
http://hdl.handle.net/20.500.12708/5807
DOI: 10.34726/hss.2014.22581
Library ID: AC11581330
Organisation: E105 - Institut für Statistik und Wahrscheinlichkeitstheorie 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:



Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.

Page view(s)

41
checked on May 10, 2022

Download(s)

121
checked on May 10, 2022

Google ScholarTM

Check