Windischbauer, J. (2024). Label generation for time series data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.119801
E194 - Institut für Information Systems Engineering
-
Date (published):
2024
-
Number of Pages:
113
-
Keywords:
Time Series Data; Label Generation; Machine Learning; Weak Supervision; Programmatic Labeling
en
Abstract:
Machine Learning (ML) hat sich zu einem zentralen Punkt in Forschung und Industrie entwickelt und revolutioniert wie Daten in verschiedenen Sektoren analysiert und genutzt werden. Ein Herzstück der Effektivität von ML sind beschriftete Daten, auf deren Grundlage diese Algorithmen lernen und Vorhersagen treffen. Da ML-Modelle immer komplexer und umfangreicher werden, steigt auch ihr Bedarf an beschrifteten Trainingsdaten, was eine große Herausforderung darstellt. Die Beschaffung von großen Mengen an beschrifteter Daten stellt sich als schwierig heraus. Zeitreihendaten sind aufgrund ihres dynamischen Charakters eine besondere Herausforderung - Zeitreihen wachsen und entwickeln sich durch gleitende Fenster. Weiters können die Daten Änderungen der Beschriftungen, der Beschriftungsregeln und sogar der subjektiven Interpretation dessen, was diese Beschriftungen darstellen sollen, unterliegen. Darüber hinaus ist die Aufgabe der Beschriftung selbst ein kostspieliges Unterfangen, vor allem aufgrund des hohen Zeit- und Ressourcenaufwands. Aufgrund dessen, sind in diesem Bereich neue Methoden entstanden, die darauf abzielen, diese Herausforderungen zu bewältigen. Ein solcher vielversprechender Ansatz ist die Anwendung von Weak Supervision in Verbindung mit Endmodellen. In dieser Arbeit werden ein Beschriftungsworkflow und eine Demoanwendung entwickelt, um die Leistung der Endmodelle und ihre Beschriftungsgenauigkeit zu testen und mit traditionellen manuellen Beschriftungspraktiken und einem Supervised Ansatz als Benchmark zu vergleichen. Vorläufige Ergebnisse deuten auf den allgemeinen Nutzen dieser fortgeschrittenen Techniken hin, obwohl die spezifischen Ergebnisse nicht verallgemeinerbar sind. Nichtsdestotrotz unterstreicht der positive Ausblick der Studienteilnehmer hinsichtlich der Verwendung dieser Tools für die Kennzeichnung von Zeitreihendaten das wachsende Vertrauen in alternative Kennzeichnungsstrategien und deutet auf eine potenzielle Veränderung der Art und Weise hin, wie Daten für ML-Anwendungen vorbereitet werden.
de
Machine learning (ML) has become a cornerstone in research and industry, revolutionizing how data is analyzed and utilized across various sectors. At the heart of ML’s effectiveness lies the crucial need for accurately labeled data, the foundation upon which these algorithms learn and make predictions. As ML models grow in complexity and size, their thirst for vast amounts of data intensifies, presenting a significant challenge. Obtaining accurately labeled data, especially for time series data, is difficult. Time series data is particularly challenging due to its dynamic nature — time series continuously expand, and evolve, labels and labeling rules undergo changes, and even the subjective interpretation of what these labels should represent changes over time. Moreover, the task of labeling itself is a costly endeavor, primarily due to the extensive amount of time and resources required. The field has seen the emergence of new methodologies aimed at mitigating these challenges, acknowledging the importance of labeling. One such promising approach is the application of weak supervision in conjunction with end models. In this work, a labeling workflow and demo application are developed to enable testing and comparing the performance of end models and their labeling accuracy against traditional manual labeling practices and supervised benchmarks. Preliminary results indicate the general feasibility of these advanced techniques, although the specific results are not universally generalizable. Nevertheless, study participants’ positive outlook regarding using these tools for time series data labeling highlights growing confidence in alternative labeling strategies, suggesting a potential shift in how data is prepared for ML applications.