Glamocak, S. (2024). Feature importance in imbalanced binary classification with ensemble methods [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.113905
machine learning; feature selection; data balancing
en
Abstract:
Die Merkmalsauswahl ist zu einem wichtigen Vorverarbeitungsschritt in der Welt des maschinellen Lernens und der Datenanalyse geworden, insbesondere wenn es um Daten geht, die eine erhebliche Menge an Attributen aufweisen. Dieser Prozess ist wichtig, da er (a) die Leistung von Prädiktoren verbessert, (b) den Rechenaufwand reduziert und (c) dabei hilft, den zugrunde liegenden Prozess hinter den Daten zu verstehen. Darüber hinaus sind viele aktuelle Anwendungen binäre Klassifizierungsprobleme mit unausgeglichenen Klassen in den Datensätzen; zum Beispiel Betrugserkennung, medizinische Diagnose und Cybersicherheit. Der Einfluss des Klassenungleichgewichts auf die Merkmalsauswahl wurde in der wissenschaftlichen Literatur jedoch bisher nicht ausreichend berücksichtigt. In dieser Studie analysieren wir Methoden zur Merkmalsauswahl, die für das Problem der Merkmalsauswahl in unausgeglichenen Daten entwickelt wurden. Ziel ist es, nicht nur die zuverlässigste Methode, sondern auch die Bedeutung der Ergebnisse der Merkmalsauswahl und deren Interpretation offen zu legen. Unsere Studie umfasst Ensembles als Kernalgorithmen (Random Forest, XGBoost), Datenausgleichstechniken (Random Undersampling (RUS), Synthetic Minority Oversampling Technique (SMOTE), kostensensitives Lernen), Alternativen zur Merkmalsbewertung (Mean Decrease in Impurity (MDI), Permutation Feature Importance (PI), SHapley Additive exPlanations (SHAP)) und Korrekturen basierend auf Bewertungen der Multikollinearität mithilfe von Variance Inflation Factor (VIF). Experimente werden mit unausgeglichenen Datensätzen aus verschiedenen Bereichen durchgeführt. Wir bewerten die Leistung der ausgewählten Attribute mit dem ROC AUC Wert. Die Versuchsergebnisse zeigen, dass mehrere Kombinationen durchweg hohe ROC AUC Werte aufweisen, insbesondere XGBoost in Kombination mit SMOTE und SHAP sowie Random Forest in Kombination mit RUS und SHAP. Insbesondere sticht PI als eine außergewöhnlich diskriminierende Technik zur Merkmalsbewertung hervor. Allerdings verbessert die VIF Korrektur die ROC AUC Leistung oder Zuverlässigkeit getesteter Kombinationen nicht durchgängig. Diese Forschung bietet eine umfassende Analyse verschiedener Strategien, um das Problem der Merkmalsauswahl in unausgeglichenen Daten anzugehen. Durch die Identifizierung leistungsstarker, zuverlässiger und diskriminierender Merkmalsauswahlkombinationen bietet diese Studie wertvolle Erkenntnisse zur Verbesserung der Anomalieerkennung in kritischen Bereichen wie der Netzwerksicherheit. Unter der Annahme, dass die getesteten Kombinationen zeitlich realisierbar sind, können ein geringerer Rechenaufwand und die Auswahl von Merkmalen, die zu präzisen Vorhersagen beitragen, die Sicherheitsmaßnahmen in der Praxis erheblich verbessern. Zukünftige Forschungsarbeiten können auf unseren Ergebnissen aufbauen, um bessere Anomalieerkennungssysteme zu entwickeln.
de
Feature selection has become an important pre-processing step in the world of machine learning and data analysis, particularly when dealing with data that has a substantial amount of attributes. This process is essential as it (a) improves the performance of predictors,(b) reduces computational requirements, and (c) helps understand the underlying process behind the data. Moreover, many current applications are binary classification problems with imbalanced classes in the datasets; for instance, fraud detection, medical diagnosis, and cybersecurity. However, the impact of class imbalance on the feature selection has not received proper attention in the scientific literature so far.In this study, we analyze feature selection methods designed for the problem of feature selection in imbalanced data. The goal is to disclose not only the most reliable method, but also the meaning of the feature selection scores and how to interpret them.Our study covers ensembles as core algorithms (Random Forest, XGBoost), data balancing techniques (Random Undersampling (RUS), Synthetic Minority Oversampling Technique (SMOTE), cost-sensitive learning), feature scoring alternatives (Mean Decrease in Impurity (MDI), Permutation Feature Importance (PI), SHapley Additive exPlanations (SHAP)), and corrections based on evaluations of multicollinearity using Variance Inflation Factor (VIF). Experiments are performed on imbalanced datasets from various domains.We assess the performance of the selected feature subsets with ROC AUC scores. Experiment results show that several combinations demonstrate consistently high ROC-AUC scores, especially XGBoost combined with SMOTE and SHAP, as well as RandomForest united with RUS and SHAP. Notably, PI stands out as an exceptionally discriminative feature scoring technique. However, VIF correction does not consistently improve the ROC-AUC performance or stability of tested combinations. This research provides a comprehensive analysis of various methods to address the problem of feature selection in imbalanced data. By identifying high-performing, stable,and discriminative feature selection combinations, this study offers valuable insights for improving anomaly detection in critical domains like network security. Assuming the time viability of tested combinations, reduced computational demands and selection of the features that help generate accurate predictions can significantly improve security measures in practice. Future research can build upon our results to develop more sophisticated anomaly detection systems.