Robust statistical grouping methods for high-dimensional data

Brodinová, Šárka

doi:10.34726/hss.2017.28425

Record link:

https://doi.org/10.34726/hss.2017.28425
http://hdl.handle.net/20.500.12708/5702

Title:

Robust statistical grouping methods for high-dimensional data

Citation:

Brodinová, Š. (2017). Robust statistical grouping methods for high-dimensional data [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.28425

reposiTUm DOI:

10.34726/hss.2017.28425

CatalogPlus:

AC14504080

Publication Type:

Thesis - Dissertation

Language:

English

Authors:

Brodinová, Šárka

Advisor:

Filzmoser, Peter

Co-advisor:

Breiteneder, Christian

Organisational Unit:

E105 - Institut für Stochastik und Wirtschaftsmathematik

Date (published):

2017

Number of Pages:

107

Keywords:

Clustering; Imbalanced groups

Abstract:

Die neuesten Fortschritte in modernen Techniken resultieren in riesigen Datensammlungen in Bezug auf Größe als auch Dimension. Dieser Trend lässt neue Herausforderungen für statistische Lernverfahren entstehen, welche für die Gewinnung von Schlüsselinformation einer großen Menge von Daten verantwortlich sind. Die vorliegende Dissertation thematisiert die aktuellen Anforderungen an unüberwachtes Lernen bezüglich Daten-Clustering und zeigt Verfahren auf, welche neue Trends in Daten-Clustering verfolgt werden. Die Identifikation der Gruppen-Struktur beliebiger realer Daten erscheint aufgrund verschiedener Ursachen als sehr schwierig. Zum einen ist es bekannt, dass übliche Clustering-Verfahren, wie zum Beispiel k-means, normalerweise für saubere Daten die keine Ausreißer besitzen, eine gute Effizienz aufweisen. Die Performance dieser Methoden hängt jedoch maßgeblich von der Präsenz von Ausreißern ab, die unterschiedlich zur wahren vorhandenen Gruppen-Struktur vorliegen. Daraus folgt, dass man eine Clustering-Methode benötigt, die unempfindlicher gegenüber Ausreißern ist. Darüber hinaus können Ausreißer, die als Beobachtungen von höchstem Interesse gelten, in gewissen Anwendungsbereichen wie etwa Audio- oder Video-Medien, nur sehr kleine Gruppen bilden. Folglich benötigt man nicht nur die Identifikation dieser Untersuchungen, sondern auch Kenntnis über deren Gruppenstruktur. Zum anderen wird Daten-Clustering zunehmend schwieriger wenn hochdimensionale Daten vorliegen, weil allgemein gewöhnliche Unähnlichkeits-Messungen fehlschlagen. Um diese Einschränkungen umgehen zu können werden während dem Daten-Clustering Methoden wie Dimensionsreduzierung oder Variablen-Selektion angewendet. Letztendlich nehmen die meisten der existierenden Clustering-Methoden im Allgemeinen an, dass eine spezielle Gruppen-Charakteristik, wie z.B. Gruppengröße oder Anzahl der Cluster, vorliegt. Solche Annahmen sind jedoch schwer zu erfüllen, wenn man mit realen Daten arbeitet. Obwohl das Hauptziel der vorliegenden Arbeit auf Daten-Clustering gerichtet ist, versuchen die vorgestellten Clustering-Verfahren zusätzlich die Detektion von Ausreißern zu verwirklichen. Aus diesem Grund wird die Identifikation von Ausreißern an der zugrundeliegenden Gruppenstruktur ebenfalls besprochen. Die Entwicklung aller vorgestellten Methoden wird durch Anwendungsszenarios motiviert und deren Vorteil anhand von realen Daten demonstriert.

Nowadays, recent advances in modern techniques have resulted in data collections that are huge in both size and dimension. Such a trend emerges new challenges for statistical learning procedures designed to extract key information from a large amount of data. This thesis particularly addresses current challenges of unsupervised learning in the sense of data clustering and presents procedures that follow new trends in data clustering. Identifying a group structure of any real-world data becomes nowadays problematic due to several aspects. Firstly, it is well known that standard clustering procedures, e.g. k-means, are usually efficient on clean data, i.e. data without outliers, but the performance of such methods is highly affected by the presence of outliers deviating from the true underlying group structure. Hence, there is a need for a clustering method which is more robust against outliers. Furthermore, in some application domains, e.g. media domain, outliers as observations of high interest commonly form groups of very small sizes. In this context, not only the identification of such observations but also their group structure is required. Secondly, data clustering gets more difficult in high-dimensional space where the standard dissimilarity measures commonly fail. In order to overcome such limitation, dimension reduction or variable selection techniques are usually employed during data clustering. Finally, most existing clustering method commonly assume either specific group characteristics, e.g. group sizes, or even required for the number of clusters. Such assumptions might, however, be difficult to fulfill in case of real-world data. Although the main goal of this thesis is data clustering, the introduced clustering procedures additionally aim at outlier detection. For this reason, a discussion of identifying outliers in the context of a simple group structure is elaborated as well. The development of all introduced procedures is motivated by real application scenarios and the advantages of the methods are demonstrated on real-world data examples.

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis