Pölzlbauer, G. (2008). Advanced data exploration methods based on self-organizing maps [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-25972
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2008
-
Number of Pages:
210
-
Keywords:
Self-Organizing Maps; Datenanalyse; Visualisierung; Klassifikation; Maschinelles Lernen; Data Mining
de
Abstract:
Self-Organizing Maps (SOMs) sind ein wichtiges Data Mining Verfahren um Informationen aus großen Datenmengen herauszufiltern. In dieser Arbeit werden drei auf SOMs aufbauende Methoden vorgestellt, die beim Verständnis solcher großer Datenmengen helfen sollen. Zwei dieser Methoden sind Visualisierungsverfahren für SOMs, die dritte ist eine vom SOM Trainingsalgorithmus inspirierte Klassifizierungsmethode für Zweiklassenprobleme. Die erste der vorgestellten Methoden zeigt den Zusammenhang zwischen dem Datenset, auf dem eine SOM trainiert worden ist, und den Codebookvektoren, aus denen diese SOM besteht. Ausgehend von einem Graphen, der den gegenseitigen Abstand zwischen Datenvektoren darstellt, werden Linien auf einer SOM Visualisierung gezeichnet. Dies zeigt die Dichte einzelner Bereiche der Karte, durch den projektionsbedingten Dimensionsverlust entstandene Topologieverletzungen und die Positionen von Ausreißern. Die zweite Methode ist ein Visualisierungsverfahren, das die Clusterstruktur einer SOM in verschiedenen Detailliertheitsgraden zeigt.<br />Ein Parameter dient zur Adjustierung der gewünschten Granularität der dargestellten Information. Zur Darstellung der Ergebnisse wird eine Vektorfeldrepräsentation gewählt und eine Metapher für Spezialisten mit ingenieurswissenschaftlichem Hintergrund erzeugt. Diese Methode wird dahingehend erweitert, Gruppen von Variablen gegenüberstellen zu können und somit den Einfluss einzelner Dimensionen auf die Clusterstruktur festzustellen. Die dritte Methode ist ein Machine Learning Verfahren für binäre Klassifikationsprobleme. Es besteht aus einem Ensemble linearer Klassifikatoren, die jeweils einen Bereich des Eingaberaums abdecken.<br />Der Trainingsalgorithmus, der diese lokalen Klassifikatoren platziert, ist vom SOM Algorithmus abgeleitet. Er baut auf dem von SOMs bekannten Prinzip auf, dass in einer vordefinierten Topologiestruktur benachbarte Einheiten einander beeinflussen. In dieser Dissertation wird der theoretische Hintergrund dieser Methoden beschrieben. Empirische Evaluierungen werden anhand einer Reihe künstlicher Datensets sowie Benchmark- und Real-World-Datensets durchgeführt. Weiters wird der Nutzen der Methoden aufzeigt, sowie deren Stärken und Schwächen analysiert. Besonderer Wert ist auf die Erstellung aussagekräftiger, die spezifischen Eigenschaften überwachter und unüberwachter Lernverfahren adressierender Datensets gelegt worden.<br />
de
Self-Organizing Maps are an important data mining method for extracting information from a data set. In this thesis, three techniques that are based on SOMs are introduced for helping to understand large amounts of data. Two of them are visualization techniques for SOMs, while the third is a classification method for two-class problems inspired by the SOM training algorithm. The first of the proposed methods is based on putting the data set a SOM has been trained with in relation with the codebook vectors that define this SOM. Starting from a graph that reflects the mutual distance between data vectors, a set of lines is plotted on top of the output space visualization of the SOM. This shows the density of the areas of the map, violations of the topology due to the projection-induced dimensionality loss, and the location of outliers. The second contribution is a visualization technique that shows the clustering structure of a SOM on various levels of detail. A parameter is provided to adjust the desired granularity of information that is to be shown. For displaying the results, a vector field representation has been chosen in order to provide a metaphor that appeals to specialists with engineering backgrounds. This method is extended to a setting that contrasts groups of contributing variables in order to single out their influence on the clustering structure. The third contribution is a machine learning method for binary classification problems. This technique consists of an ensemble of linear classifiers that each cover a portion of the input space. The training algorithm that actually places these local classifiers is influenced by the SOM algorithm. It exploits the SOM principle of aligning nearby units according to a super-imposed topology structure. The theoretical background for these methods is described in this thesis. Empirical evaluation on a series on artificial, benchmark, and real-world data sets show their applicability, and their strengths and weaknesses are discussed. Much effort has been dedicated at designing meaningful artificial data sets that address specific abilities of supervised and unsupervised learning methods.<br />