Predictive Test Selection: A Replication Study

Aichmann, Stefan

doi:10.34726/hss.2025.99964

Datensatz Zitierlink:

https://doi.org/10.34726/hss.2025.99964
http://hdl.handle.net/20.500.12708/215633

Titel:

Predictive Test Selection: A Replication Study

Zitat:

Aichmann, S. (2025). Predictive Test Selection: A Replication Study [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.99964

reposiTUm-DOI:

10.34726/hss.2025.99964

CatalogPlus:

AC17527524

Publikationstyp:

Hochschulschrift - Diplomarbeit

Sprache:

Englisch

Autor_innen:

Aichmann, Stefan

Betreuer_in:

Cito, Jürgen

Organisationseinheit:

E194 - Institut für Information Systems Engineering

Datum (veröffentlicht):

2025

Umfang:

Keywords:

Replikationsstudie; Vorhersagebasierte Testfallauswahl; Testfallauswahl; Softwaretest; Automatisierte Testfallauswahl; Reproduzierbarkeit in der Softwareforschung; Maschinelles Lernen zur Testfallauswahl

Replication Study; Predictive Test Selection; Test Case Selection; Software Testing; Automated Test Selection; Reproducibility in Software Engineering Research; Machine Learning for Test Case Selection

Abstract:

Die Auswahl von zu testenden Softwaretests ist von entscheidender Bedeutung für die Verbesserung der Effizienz durch die Verringerung der mit dem Testen verbundenen Zeit, Rechenressourcen und Kosten. Indem wir auf der Grundlage von Code-Änderungen oder anderen Kriterien selektiv nur die relevantesten Tests durchführen, können wir die Testzeit erheblich verkürzen und unnötige Berechnungen vermeiden. Dies beschleunigt nicht nur den Lebenszyklus der Softwareentwicklung, sondern führt auch zu Kosteneinsparungen, da weniger Ressourcen für die Ausführung von Tests benötigt werden. Eine effiziente Testauswahl stellt sicher, dass das Testen sowohl effektiv als auch ressourcenschonend ist, was es zu einer wesentlichen Praxis für die Optimierung von Softwarequalität und -leistung macht.In dieser Arbeit versuchen wir, die „Predictive Test Selection“-Studie von Facebook in einem Open-Source-Kontext zu replizieren. Um dies zu erreichen, sammeln wir Daten aus mehreren Open-Source-Projekten und trainieren Modelle für maschinelles Lernen, um relevante Tests auf der Grundlage von Codeänderungen vorherzusagen. Unser Ziel ist es, herauszufinden, ob die Ergebnisse von Facebook auch außerhalb ihrer proprietären Umgebung zutreffen, und die Wirksamkeit der prädiktiven Testauswahl in einem breiteren, öffentlich zugänglichen Software-Ökosystem zu bewerten. Die größte Herausforderung in dieser Arbeit war das Sammeln der notwendigen Daten und das Training der Modelle, da die ursprüngliche Arbeit nur eine grobe Beschreibung der Merkmale und der Trainingspipeline enthielt. Daher mussten wir bei der Implementierung mehrere Annahmen und Designentscheidungen treffen. Trotz dieser Hindernisse gelang es uns, den Ansatz zu rekonstruieren und die wichtigsten Ergebnisse zu wiederholen, wodurch die Ergebnisse der ursprünglichen Studie in einem Open-Source-Umfeld validiert wurden.

Software test selection is crucial for improving efficiency by reducing the time, computational resources, and costs associated with testing. By selectively running only the most relevant tests, based on code changes or other criteria, we can significantly cut down on testing time and avoid unnecessary computation. This not only speeds up the software development lifecycle but also leads to cost savings, as fewer resources are required for executing tests. Efficient test selection ensures that testing is both effective and resource-conscious, making it an essential practice for optimizing software quality and performance.In this thesis, we aim to replicate the "Predictive Test Selection" study by Facebook within an open-source context. To achieve this, we collect data from multiple open-source projects and train machine learning models to predict relevant tests based on code changes. Our goal is to evaluate whether Facebook's findings hold true outside of their proprietary environment and to assess the effectiveness of predictive test selection in a broader, publicly available software ecosystem.The key challenge in this thesis was collecting the necessary data and training the models, as the original paper provided only a high-level description of the features and training pipeline. This required us to make several assumptions and design decisions during implementation. Despite these obstacles, we successfully reconstructed the approach and were ultimately able to replicate the key findings, thereby validating the results of the original study in an open-source setting.

Weitere Information:

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

Lizenz:

Urheberrechtsschutz

Enthalten in den Sammlungen:

Thesis