Karami, O. (2017). A comparison of machine learning techniques on the medical data sets [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.41665
"Maschinelles Lernen" ist eine der interessantesten Neuentwicklungen im Bereich der Wissenschaft der Datentechnik und findet seinen Anwendungsbereich als Beispiel in der Medizin. Hier wird diese Technik insbesondere angewendet um wichtige medizinische Entscheidungen zutreffen. Mit Hinblick auf die sehr große Anzahl der gesammelten Patienten-Daten und deren sehr rasant wachsenden Mengen, ist die korrekte Ausarbeitung bzw. Verständnis dieser Unmengen an Daten durch einen Menschen fast nicht mehr möglich und kann zu fatalen gesundheitlichen Entscheidungen führen. Deshalb beschäftigt sich diese Diplomarbeit mit dem Thema Maschinelles Lernen und seinen Einsatz im Bereich der Medizin. Hier existiert aber eine Vielzahl an Techniken für die Bearbeitung der Daten und die Herausforderung wird sich hier bei der Auswahl der richtigen Technik zur Bearbeitung der spezifischen Daten stellen. Obwohl für jeden Teilbereich der Medizin mehrere Auswertung-Techniken bereits existieren, ist es aber noch nicht klar, ob man bei der Auswahl anderer Maschinelles- Lernen-Methoden eine Verbesserung der Ergebnisse erreichen kann. Die Quelle der benutzten Daten in dieser Diplomarbeit ist das UCI-Repository in Hinblick auf schwer bzw. nicht genau klassifizierbare Datensätze. Als erstes wurden die existierenden Daten-Analyse und deren Ergebnisse durch die Anwendung verschiedene Maschinelles-Lernen-Methoden durchleuchtet. Basierend auf den Ergebnissen dieser Voruntersuchung wurden neuere/erweiterte bzw. andere Klassifikatoren für die Daten angewendet. Die dazugehörigen Parameter der Klassifikatoren wurden aus verschiedenen Konfigurationen experimentell herausberechnet und auf die ursprünglichen Daten angewendet. Auch Auswirkungen der Vorab-Bearbeitung und Vorab-Analyse der Daten auf die Endergebnisse wurden untersucht. Die Ergebnisse zeigen, dass die Benutzung der richtigen Daten-Vorab-Analyse und Einstellung der Parameter für die Maschinelles Lernen Algorithmus sich wesentlich auf ein gutes und korrektes Ergebnis auswirken. Obwohl die besten und genaueren Ergebnisse durch die Anwendung verschiedene Maschinelles-Lernen-Algorithmen erzielt worden sind, haben unsere Untersuchungen aber gezeigt, dass ¿AdaBoost¿ und ¿random forest¿ gute Resultate liefern können.
de
Machine learning is one of the most interesting topics of research that is applied in many domains such as for example medicine. It is going to play an important role for decision support in this area. The amount and complexity of recorded data in this area increases constantly, which makes it harder for humans to make right decisions that are important for human lives. The focus of this thesis is the application of the machine learning techniques in medical data. An important question which arises, when applying machine learning techniques, is the selection of the most suitable techniques for a specific application. Although many researchers compared different techniques for specific medical domains, often it is not clear if the results for these domains can be still improved by applying other machine learning techniques. In this thesis, several medical data sets were selected from UCI repository. The focus was particularly on data sets for which is not easy to achieve high classification accuracy. In this thesis we first reviewed the machine learning techniques which have been used for the selected data sets and analyzed the existing results. We then experimentally evaluated various new classifiers on these data sets. The parameters in each classifier were investigated and experiments with various configurations were performed. Furthermore, we evaluated the impact of the preprocessing techniques on selected datasets. The experiments showed that the use of preprocessing techniques and parameter tuning is very important to achieve good performance for the most machine learning algorithms. Although the best results were obtained by various machine learning algorithms, our experiments showed that ensemble learning algorithms such as AdaBoost and random forest gave usually good results.