Discriminant analysis based on robust regularized covariance estimation

Kepplinger, David

doi:10.34726/hss.2015.27925

DC Field

Value

Language

dc.contributor.advisor

Filzmoser, Peter

dc.contributor.author

Kepplinger, David

dc.date.accessioned

2020-06-29T23:47:13Z

dc.date.issued

2015

dc.date.submitted

2015-06

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Kepplinger, D. (2015). <i>Discriminant analysis based on robust regularized covariance estimation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.27925</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2015.27925

dc.identifier.uri

http://hdl.handle.net/20.500.12708/9205

dc.description

Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers

dc.description

Zsfassung in dt. Sprache

dc.description.abstract

Die einfache Form der linearen Diskriminanzanalyse (LDA) macht diese zu einem der meistbenutzten Werkzeuge für die Klassifikation von Objekten, wobei die Abhängigkeit von einem Schätzer für die inverse Kovarianzmatriz einen gewichtigen Nachteil dieser Methode darstellt. In unzähligen Anwendungen stehen sehr viele gemessene Merkmale einigen wenigen Beobachtungen gegenüber, wovon einige auch kontaminiert sein können. Jede dieser Eigenschaften macht dieses einfache Werkzeug unbrauchbar für eine Anwendung. Regularisierung ist eine allseits bekannte Methode um einen guten Schätzer für die inverse Kovarianzmatriz zu bekommen, selbst wenn die Kovarianzmatrix schlecht konditioniert ist. Allerdings ist auch diese Methode nicht vor dem Einfluss von Kontamination gefeit und kann in diesem Fall keine zuverlässige Schätzung liefern. Indem Ideen des FAST-MCD Algorithmus zur Bestimmung einer robusten multivariaten Lokations- und Streuungsschätzung aufgegriffen werden, kann allerdings eine robuste, regularisierte Schätzung der inversen Kovarianzmatrix durchgeführt und für LDA verwendet werden. Unter Berücksichtigung des Klassifikations-Kontexts wird ein Maß, ähnlich dem Deviance-Maß in anderen Klassifikationsmethoden, definiert und zur Bestimmung des optimalen Werts des benötigten Regularisierungsparameters verwendet. Eine ausführliche Simulationsstudie zeigt die überragende Leistung des neuen Klassifikations-Algorithmus' für hochdimensionale Daten und kleiner Stichprobengröße, wenn kontaminierte Beobachtungen vorhanden sind, aber auch die hohe Effizienz im Falle von nicht-kontaminierten Daten.

dc.description.abstract

Its simple form makes linear discriminant analysis (LDA) a prevalent tool for classification, yet the dependency on an estimate of the precision matrix is a major drawback. In many applications more features than observations are available and some of these observations may be contaminated, impeding use of this simple tool. Regularization techniques, or sparse methods, are well known to give good estimates of the precision matrix when the sample covariance matrix is rank-deficient or ill-conditioned, however contamination also breaks these methods. By borrowing ideas from the FAST-MCD algorithm for robust multivariate location and scale estimation, a robust regularized estimate of the precision matrix can be obtained and used for LDA. In consideration of the classification context, a measure similar to the deviance measure used in other classification methods is defined and used to obtain the optimal value for the required regularization parameter. An extensive simulation study shows the superior performance of the new classification algorithm for high-dimensional data and low sample size in the presence of contaminated observations, but also its high efficiency for uncontaminated data.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

classification

dc.subject

discriminant analysis

dc.subject

sparse methods

dc.subject

robust covariance estimation

dc.subject

high-dimensional data

dc.title

Discriminant analysis based on robust regularized covariance estimation

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2015.27925

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

David Kepplinger

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E105 - Institut für Stochastik und Wirtschaftsmathematik

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC12315465

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-82510

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-8014-4682

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

E107 - Institut für Statistik und Wahrscheinlichkeitstheorie

crisitem.author.parentorg

E100 - Fakultät für Mathematik und Geoinformation

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(390.15 kB)

In Copyright

Show simple item record

Page view(s)

219

checked on Dec 1, 2023

Download(s)

checked on Dec 1, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM