Reproduzierbarkeit von Ergebnissen im Bereich Maschinelles Lernen

Naumovska, Martina

doi:10.34726/hss.2017.40764

Record link:

https://doi.org/10.34726/hss.2017.40764
http://hdl.handle.net/20.500.12708/3763

Title:

Reproduzierbarkeit von Ergebnissen im Bereich Maschinelles Lernen

Citation:

Naumovska, M. (2017). Reproduzierbarkeit von Ergebnissen im Bereich Maschinelles Lernen [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.40764

reposiTUm DOI:

10.34726/hss.2017.40764

CatalogPlus:

AC13717634

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Naumovska, Martina

Advisor:

Rauber, Andreas

Organisational Unit:

E188 - Institut für Softwaretechnik und Interaktive Systeme

Date (published):

2017

Number of Pages:

Keywords:

reproducibility; machine learning; classification; operating systems; development environments

Abstract:

Die Informatik ist sehr jung und eine kontinuierlich fortschreitende Disziplin. Die Validierung und die Wirksamkeit einer wissenschaftlichen Forschung können neben ihren theoretischen Eigenschaften und Methoden oft durch Experimente validiert werden. Wissenschaftler und Studenten konfrontieren die Herausforderung, nicht in der Lage, die gleichen Ergebnisse bei der Wiedergabe von jemand anderes Experiment zu erreichen. Die meisten Rechenexperimente sind schlecht dokumentiert, experimentelle Ergebnisse sind kaum beschrieben und der Quellcode, der die Ergebnisse produzierte, ist selten verfügbar. Aus diesem Grund ist die Sorge um die Reproduzierbarkeit einer wissenschaftlichen Forschung in letzter Zeit stetig gestiegen. Diese Arbeit konzentriert sich auf die Analyse des Einflusses verschiedener Betriebssysteme und verschiedener Entwicklungsumgebungen, wenn es darum geht, maschinelle Lernergebnisse zu reproduzieren. Darüber hinaus präsentiert diese Arbeit die Vor-und Nachteile der Reproduktion Maschine Lernalgorithmen auf verschiedene Version von Betriebssystemen und Entwicklungsumgebungen. Die These kommt zu dem Schluss, dass der Wissenschaftler bei der Reproduktion eines Algorithmus für die Lernklassifizierung der Algorithmen sehr vorsichtig sein muss, wenn die ursprüngliche Entwicklungsumgebung oder das Betriebssystem geändert wird, da die Anzahl der in dieser Arbeit analysierten Experimente zeigt, dass sich unterschiedliche Umgebungen oder Betriebssysteme ändern können Die Ergebnisse der Ausgangsvorhersage des Modells.

Computer science is very young and is a constantly progressing discipline.The validation and the effectiveness of a scientific research, besides its theoretical properties and methods, can often be validated by experimentation. Scientist and students confront the challenge of not being able to achieve the same results when reproducing someone elses experiment. Most computational experiments are poorly documented, experimental results are barely described and the source code that produced the results is rarely available. Because of this, the concern about reproducibility of a scientific research has been steadily rising recently. This thesis focuses on analyzing the influence of different operating systems and different development environment when trying to reproduce machine learning results. Further-more, this thesis presents the pros and cons of reproducing machine learning algorithms on different version of operating systems and development environments. The thesis concludes that while reproducing a machine learning classification algorithm, the scientist need to be very cautious when changing the original development environment or operating system, due to the fact the number of experiments analyzed in this thesis show that different environments or operating system can change the results of the output prediction of the model.

License:

In Copyright

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2.38 MB)

In Copyright

Show full item record

Google Scholar^TM

Check

Google ScholarTM

Google Scholar^TM