On reliability of third-party applications for open source research software

Csukker, Stefan

doi:10.34726/hss.2025.123151

Record link:

https://doi.org/10.34726/hss.2025.123151
http://hdl.handle.net/20.500.12708/215724

Title:

On reliability of third-party applications for open source research software

Citation:

Csukker, S. (2025). On reliability of third-party applications for open source research software [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.123151

reposiTUm DOI:

10.34726/hss.2025.123151

CatalogPlus:

AC17531491

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Csukker, Stefan

Advisor:

Rauber, Andreas

Organisational Unit:

E194 - Institut für Information Systems Engineering

Date (published):

2025

Number of Pages:

Keywords:

Open source research software; Softwarefehler; github; gitlab

Open source research software; software errors; github; gitlab

Abstract:

Die Eigenschaften von Open-Source Software, nämlich reduzierte Kosten, Anpassbarkeit und die Fähigkeit zur Zusammenarbeit und dem Teilen von Code, machen sie sehr nützlich für Forscher. Wenn Software wiederverwendet wird, können sich allerdings bereits die kleinsten Änderungen auf Forschungsergebnisse auswirken. Aspekte wie die Fehlerhäufigkeit, Stabilität und Leistung sind essenziell, wenn Forscher auf der Suche nach einer verlässlichen Software sind. Der aktuelle Stand der Forschung in Bezug auf Fehler und Fehlerkorrekturen in Forschungssoftware ist nicht bekannt. Diese Diplomarbeit beschäftigt sich mit diesem Thema anhand einer empirischen Studie mit dem Fokus auf Fehlerkorrekturen in Open-Source Forschungssoftware. Als Basis wurden Datensätze vom Software Knowledge Graph und Papers With Code verwendet. Das Sammeln von zusätzlich benötigten Daten, sowie die Klassifizierung von Commit-Nachrichten wurden automatisiert. Die Klassifizierung von Commit-Nachrichten in Code-Änderungen und Fehlerkorrekturen weist eine Precision von 93,75% und einen Recall von 95,17% auf. Die Studie zeigte eine starke positive Korrelation zwischen der Anzahl von Mitwirkenden und der Anzahl an Commits, sowie eine schwache positive Korrelation zwischen der Anzahl von Mitwirkenden und dem Anteil an Fehlerkorrekturen in Commits. Softwareprojekte mit mindestens zwei Entwicklern tendieren zu einem höheren Anteil an Fehlerkorrekturen. Für die dritte Forschungsfrage wurde ein Workflow, welcher Bedingungen enthält, und zusätzliche Kriterien eingeführt anhand derer Code-Repositories gefiltert wurden. Von insgesamt 1,055 Repositories waren fünf ausführbar. Die erneute Berechnung führte in einem Fall zu unterschiedlichen Ergebnissen.

The characteristics of Open-Source Software, namely reduced cost, customizability, and the ability to collaborate and share code, make it a great fit for researchers. But when reusing software, even the smallest adjustments can affect research outcomes. Aspects like bug frequency, stability, and performance are essential when a researcher is looking for reliable software. The current state of research on bugs and their fixes in research software remains unclear. This thesis aims to address this topic by conducting an empirical study on bug fixes in Open-Source Research Software, for which I used the datasets from the Software Knowledge Graph and Papers With Code. In addition, I accomplished the automation of data gathering and the classification of commit messages from code repositories. The classification of commit messages into code changes and bug fixes achieved a precision of 93.75% and a recall of 95.17%. Overall, the study showed a strong positive correlation between the number of contributors and commits, as well as a weak positive correlation between the number of contributors and bug fix percentages within commits. Software projects with at least two developers tend to have a higher percentage of bug fixes. For the question of effects of bug fixes, I introduced a workflow consisting of conditions and additional criteria for which repositories are being excluded for further investigations. Out of 1,055 repositories five were executable. The recalculation showed different results in one case.

License:

In Copyright

Appears in Collections:

Thesis