Automated machine learning using metaheuristic algorithms

Rexha, Gent

doi:10.34726/hss.2021.86803

Record link:

https://doi.org/10.34726/hss.2021.86803
http://hdl.handle.net/20.500.12708/18548

Title:

Automated machine learning using metaheuristic algorithms

Citation:

Rexha, G. (2021). Automated machine learning using metaheuristic algorithms [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.86803

reposiTUm DOI:

10.34726/hss.2021.86803

CatalogPlus:

AC16331042

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Rexha, Gent

Advisor:

Musliu, Nysret

Organisational Unit:

E192 - Institut für Logic and Computation

Date (published):

2021

Number of Pages:

Keywords:

Automated Machine Learning; Metaheuristics

Abstract:

Maschinelles Lernen wird zu einem integralen Bestandteil jeder modernen Softwareanwendung. Sein Erfolg ist direkt mit der Auswahl des richtigen Algorithmus für die verschiedenen wichtigen Lernaufgaben verbunden. Der Prozess der Algorithmenauswahl birgt jedoch seine eigenen Herausforderungen, denn das "no free lunch"-Theorem besagt, dass "jede höhere Leistung bei einer Klasse von Problemen durch die niedrigere Leistung bei einer anderen Klasse ausgeglichen wird". Mit anderen Worten, ein Algorithmus kann nicht für alle Arten von Problemen die beste Lösung sein. Ein Algorithmus kann für ein Problem eine optimale und für ein anderes eine schlechte Lösung sein.Diese Arbeit konzentriert sich auf die Kategorie des überwachten maschinellen Lernens, bei dem die Daten in Eingabe- und Ausgabevariablen aufgeteilt und dem Algorithmus übergeben werden. Das Ziel darin besteht, Muster zu erkennen, bei denen nur die Eingabevariablen die Ausgabevariable vorhersagen können. Die Notwendigkeit, optimale Lösungen für diese Art von Problemen zu finden, hat zum Aufkommen von Automated Machine Learning (AutoML) geführt. Die AutoML-Domäne befasst sich mit der Ermittlung des leistungsfähigsten Algorithmus für ein bestimmtes maschinelles Lernproblem sowie mit der Bestimmung anderer kritischer Schritte wie Vorverarbeitung, Featureextraktion und Featureauswahl.Das vorgeschlagene Framework mit dem Namen \textit{MetaheuristicSklearn} ermöglicht die Entwicklung und Reproduktion von mehrstufigen, kontrollierten Klassifizierungspipelines auf zusammenhängender Weise. Das Framework bietet eine Standardmethode zur Implementierung und Integration von Pipelineschritten und Parametern unter Verwendung verschiedener Techniken. Darüber hinaus wurden die metaheuristischen Algorithmen: (i) Simulated Annealing, (ii) Tabu Search und (iii) Iterated Local Search (ILS) im Rahmen von Solver-Algorithmen zur Ermittlung optimaler AutoML-Lösungen angewendet und evaluiert. Die drei Lösungsverfahren wurden in einer großen Datensatz-Benchmark-Sammlung eingesetzt, um das Framework zu evaluieren. Die Leistung der Algorithmen wurde bewertet und mit den modernsten AutoML-Frameworks verglichen. Darüber hinaus haben wir mehrere neighborhood operators vorgeschlagen, verschiedene Algorithmenkonfigurationen bewertet und die einzelnen Komponenten untersucht.Basierend auf unseren Experimenten mit 31 Datensätzen aus der OpenML-CC18 Benchmarking Suite, schneiden Tabu Search und ILS besser ab als Simulated Annealing. Tabu Search war der beste Algorithmus für 15 von 31 Datensätzen, ILS für 13 von 31, und Simulated Annealing war nur in 3 von 31 Datensätzen der beste Algorithmus. Der Algorithmus-Parameter-Tuning-Prozess erwies sich ebenfalls als recht effektiv, wobei die Gesamtverbesserung des F1-Score im Vergleich zu den Standardparametern durchschnittlich 7% betrug.Schließlich bietet das vorgeschlagene MetaheuristicSklearn-Framework im Vergleich zu hochmodernen AutoML-Frameworks in 9 von 31 Fällen eine leistungsfähigere Pipeline. Darüber hinaus war die Genauigkeit des MetaheuristicSklearn-Frameworks für alle Datensätze etwa 2% schlechter als die des leistungsstärksten Frameworks.

Machine learning is becoming an integral part of every modern software application. Its success is directly linked to the appropriate algorithm selection when dealing with various essential learning tasks. But the algorithm selection process has its own challenges, as the “no free lunch” theorem states that "any elevated performance over one class of problems is offset by performance over another class". In other words, an algorithm can not be the best performing solution for all types of problems. An algorithm may be an optimistic answer for one problem and a poor answer for another.This thesis focuses on the supervised machine learning category, where the data is separated into the input and output variables, both given to the algorithm, where the objective is to identify patterns in which only the input data can predict the output variable. The need of finding the optimal solutions to those types of problems has led to the rise of Automated Machine Learning (AutoML). The AutoML domain is concerned with identifying the best performing algorithm for a particular machine learning issue, as well as determining other critical steps such as preprocessing, feature extraction, and feature selection.The proposed framework, named \textit{MetaheuristicSklearn}, allows multi-step controlled classification pipelines to be developed and reproduced in a cohesive manner. The framework provides a standard way of implementing and integrating pipeline steps and parameters using various techniques. Furthermore, the metaheuristic algorithms: (i) Simulated Annealing, (ii) Tabu Search, and (iii) Iterated Local Search (ILS) have been applied and evaluated in the context of solver algorithms for finding optimum AutoML solutions. The three-solver techniques were utilized in a large dataset benchmark collection, the OpenML-CC18 Benchmarking Suite, to assess the framework. The performance of the algorithms has been assessed and compared with the state-of-the-art AutoML frameworks. Additionally, we proposed several neighborhood operators, evaluated several algorithm configurations, and examined the individual components.Based on the experiments using 31 datasets from the benchmark collection, Tabu Search and ILS perform better than Simulated Annealing. Tabu Search was the best performing algorithm for 15 out of 31 datasets, ILS for 13 out of 31, and Simulated Annealing was only the best performing algorithm in 3 out of 31 datasets. The algorithm parameter tuning process was also proven to be quite effective, where the overall improvement in F1-Score was 7% on average when compared to the default parameters.Finally, the proposed MetaheuristicSklearn framework compared to state-of-the-art AutoML frameworks gives a better performing pipeline of 9 out of 31 cases. In addition, the precision of the MetaheuristicSklearn framework was around 2% worse than the best performing framework for all datasets.

License:

In Copyright

Appears in Collections:

Thesis