Versioning of model state evolution of machine learning models in online learning settings

Eitenberger, Christoph

doi:10.34726/hss.2024.108900

Record link:

https://doi.org/10.34726/hss.2024.108900
http://hdl.handle.net/20.500.12708/193418

Title:

Versioning of model state evolution of machine learning models in online learning settings

Citation:

Eitenberger, C. (2023). Versioning of model state evolution of machine learning models in online learning settings [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.108900

reposiTUm DOI:

10.34726/hss.2024.108900

CatalogPlus:

AC17060124

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Eitenberger, Christoph

Advisor:

Rauber, Andreas

Organisational Unit:

E194 - Institut für Information Systems Engineering

Date (published):

2023

Number of Pages:

117

Keywords:

Mehrschichtiges Lernen; Modellversionierung; Online-Lernen; Modellkompression; Driftsimulation; Nachvollziehbarkeit bei mehrschichtigen Lernen; Modellbereitstellung

Deep Learning; Model Versioning; Online Learning; Model Compression; Drift Simulation; Traceability in Deep Learning; Model Deployment

Abstract:

Mehrschichtige neuronale Netze werden zunehmend für wichtige Entscheidungen eingesetzt. Die Nachvollziehbarkeit dieser Entscheidungen kann aufgrund des in der Datenschutz-Grundverordnung verankerten ”Anspruchs auf Erläuterung von Entscheidungen” oder anderer Rechtsansprüche erforderlich sein. Es kann sich die Notwendigkeit ergeben, zuvor verwendete Versionen wiederherzustellen, da diese neuronalen Netze in der Regel im Laufe der Zeit aktualisiert werden müssen, z.B. aufgrund einer Datenveränderung. Die Versionsnachverfolgung in einer Online-Lernumgebung kann eine Herausforderung darstellen, da neuere Versionen häufig gespeichert, ihre Auswirkungen auf den Lernprozess jedoch minimiert werden müssen. Die Optimierung und Messung eines Versionssystems für eine Online-Umgebung ist bisher unerforscht. In dieser Diplomarbeit wird ein neuartiges ’Versionierungssystem für Online-Lernsysteme’ (VSOL) vorgeschlagen, das leicht in bestehende Workflows für maschinelles Lernen integriert werden kann, ohne, dass eine Änderung des Lernprozesses erforderlich ist. Das VSOL wird als frameworkspezifischer Callback für das Keras Machine Learning Framework integriert, um die einfache Integration in ein ML Framework zu demonstrieren. Verschiedene Kompressionsansätze, die für eine schnelle Ausführung geeignet sind und nur minimalen Speicherplatz benötigen, wurden entworfen und angepasst, wobei verschiedene Forschungsbereiche, die sich mit Kompression befassen, zusammengebracht wurden. Das VSOL wurde unter konstantem virtuellen Datendrift getestet, der durch die Einführung eines unbekannten Labels aus einem statischen, nicht online-spezifischen Datensatz simuliert wurde. Es wurden sowohl ein faltendes neuronales Netzwerk als auch ein neuronales Netzwerk mit langem Kurzzeitgedächtnis evaluiert, wobei deren Drift durch die Verwendung spezifischer Parameter und einer neuartigen Messeinheit aneinander angeglichen wurde. Bei einer Ausführungszeit, die unter der Lernzeit eines Batches liegt, und ohne die Genauigkeit zu beeinträchtigen, erzielt das VSOL eine Kompressionsrate zwischen 12,5 und 30,0. Wird eine langsamere Ausführung und eine Verringerung der Genauigkeit um 1% in Kauf genommen, ergibt sich eine Kompressionsrate zwischen 52,2 und 129,7. Diese Diplomarbeit zeigt, dass ein Versionierungssystem leicht in Online-Lernumgebungenintegriert und dabei eine kompetitive Kompressionsrate erreicht werden kann, währendes gleichzeitig deren Einschränkungen berücksichtigt.

Deep neural networks are being increasingly utilized for making significant decisions. Understanding these decisions can be required by the GDPR’s ”right to explain” or other legal claims. It may be necessary to restore previously used versions as these neural networks commonly require updating over time, e.g., due to data evolution. Tracking versions in an online learning setting can be challenging as newer versions must be frequently saved while minimizing their impact on the learning process. The optimization and measurement of a version system for an online setting have yet to be explored. This work proposes a novel Versioning System for Online Learning systems (VSOL) that can be easily integrated into existing machine learning workflows without requiring a modification of the learning process. The VSOL is integrated as a framework specific callback for the Keras Machine Learning Framework, showcasing the effortless integration into a ML Framework. Several compression approaches suitable for fast execution and requiring minimal storage space were designed and contextualized, bringing together different research fields addressing compression. The VSOL was tested under constant virtual data drift, simulated through introducing an unseen label from a static, not online specific data set. A convolutional as well as a long short-term memory neural network were evaluated where their drift was aligned by using specific parameters and a novel measurement unit. While executing faster than the learning time of one data batch and without affecting the accuracy, the resulting compression ratio lies between 12.5 to 30.0. Accepting a slower execution and an accuracy decrease of 1% lead to a compression ratio between 52.2 and 129.7. This thesis shows that a versioning system can be easily integrated and achieve a competitive compression ratio while satisfying the constraints of an online learning setting.

License:

In Copyright

Appears in Collections:

Thesis