Karatzoglou, A. (2006). Kernel methods software, algorithms and applications [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-14467
E105 - Institut für Statistik und Wahrscheinlichkeitstherorie
-
Date (published):
2006
-
Number of Pages:
202
-
Keywords:
Kernmethoden; Klassifikation; Regression; Clustering; R; Text Clustering; Machineles Lernen; Algorithmen; Support Vector Machines
de
Kernel Methods; Support Vector Machines; R; Text Mining; Classification; Regression; Clustering; Ranking; Algorithms; On-line Learning
en
Abstract:
Die vorliegende Arbeit untersucht einen aktuellen Teilbereich des maschinellen Lernens, die Kernmethoden. Nach einer kurzen Präsentation der mathematischen Grundlagen in Kapitel 1 wird in Kapitel 2 das R Erweiterungspaket kernlab vorgestellt. Basierend auf dem S4-Konzept stellt es einen objektorientierten flexiblen Baukasten fuer Kernmethoden zur Verfügung, und noch dazu implementierungen von Gaussian Processes, Support Vector Machines (SVM), "Spectral Clustering" und Kernel PCA. Im Kapitel 3 wird die SVM in kernlab mit 3 anderen SVM-Implementierungen in R in Bezug auf Features und Effizienz verglichen. Kapitel 4 beschreibt einen neuen Kern-basierten Algorithmus für on-line Training von SVMs in der die Schrittgröße des stochastischen Abstiegs dynamisch adaptiert wird. Eine Anwendung der Methode auf einem Standard-Datensatz des maschinellen Lernens zur Handschrifterkennung bestätigt die Leistungsteigung gegenüber ähnlichen Methoden, die die Schrittgröße nicht dynamischen anpassen. Kapitel 5 stellt Kern-basierte Clusterverfahren für die Gruppierung von Textdokumenten vor. "Spectral Clustering" und eine Kern-Version des bekannten k-means Verfahrens werden vorgestellt und miteinander verglichen. Der verwendete Kern wurde speziell für die Clusterung von Textdokumenten entwickelt. Die Resultate zeigen, daß "Spectral Clustering eine Methode mit großem Zukunftspotential im Bereich von Text Clustering ist.<br />
de
This monograph intents to contribute to the area of kernel-based Machine Learning.<br />After a basic introduction to kernel-based Machine Learning we continue by introducing an software package for kernel-based learning in R. The package provides a range of kernel methods including various formulations of Support Vector Machines, Gaussian processes for classification and regression, a Spectral Clustering implementation, the Relevance Vector Machine for regression, and kernel PCA. The package includes infrastructure for developing kernel methods and to this purpose it also contains implementations of the many popular kernels and functions for fast calculation of kernel expressions along with a quadratic problem solver and a incomplete Cholesky decomposition method.<br />The second chapter of the thesis presents and compares the Support Vector Machines implementations contained in various extsf{R} packages.<br />Chapter three introduces a novel kernel based on-line learning algorithm. The algorithm is derived by utilizing stochastic-meta-decent in order to calculate the learning rate of a simple kernel based stochastic gradient decent decent. We evaluate the algorithm on a character recognition data set.<br />The forth chapter presents an application of kernel method on text clustering. We use the kernel $k$-means and a spectral clustering method along with a string kernel to cluster a set of text documents. The results are then compared to a standard text clustering method.