Label generation for time series data

Windischbauer, Johannes

doi:10.34726/hss.2024.119801

DC Element

Wert

Sprache

dc.contributor.advisor

Cito, Jürgen

dc.contributor.author

Windischbauer, Johannes

dc.date.accessioned

2024-05-21T11:26:52Z

dc.date.issued

2024

dc.date.submitted

2024-05

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Windischbauer, J. (2024). <i>Label generation for time series data</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.119801</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2024.119801

dc.identifier.uri

http://hdl.handle.net/20.500.12708/197411

dc.description.abstract

Machine Learning (ML) hat sich zu einem zentralen Punkt in Forschung und Industrie entwickelt und revolutioniert wie Daten in verschiedenen Sektoren analysiert und genutzt werden. Ein Herzstück der Effektivität von ML sind beschriftete Daten, auf deren Grundlage diese Algorithmen lernen und Vorhersagen treffen. Da ML-Modelle immer komplexer und umfangreicher werden, steigt auch ihr Bedarf an beschrifteten Trainingsdaten, was eine große Herausforderung darstellt. Die Beschaffung von großen Mengen an beschrifteter Daten stellt sich als schwierig heraus. Zeitreihendaten sind aufgrund ihres dynamischen Charakters eine besondere Herausforderung - Zeitreihen wachsen und entwickeln sich durch gleitende Fenster. Weiters können die Daten Änderungen der Beschriftungen, der Beschriftungsregeln und sogar der subjektiven Interpretation dessen, was diese Beschriftungen darstellen sollen, unterliegen. Darüber hinaus ist die Aufgabe der Beschriftung selbst ein kostspieliges Unterfangen, vor allem aufgrund des hohen Zeit- und Ressourcenaufwands. Aufgrund dessen, sind in diesem Bereich neue Methoden entstanden, die darauf abzielen, diese Herausforderungen zu bewältigen. Ein solcher vielversprechender Ansatz ist die Anwendung von Weak Supervision in Verbindung mit Endmodellen. In dieser Arbeit werden ein Beschriftungsworkflow und eine Demoanwendung entwickelt, um die Leistung der Endmodelle und ihre Beschriftungsgenauigkeit zu testen und mit traditionellen manuellen Beschriftungspraktiken und einem Supervised Ansatz als Benchmark zu vergleichen. Vorläufige Ergebnisse deuten auf den allgemeinen Nutzen dieser fortgeschrittenen Techniken hin, obwohl die spezifischen Ergebnisse nicht verallgemeinerbar sind. Nichtsdestotrotz unterstreicht der positive Ausblick der Studienteilnehmer hinsichtlich der Verwendung dieser Tools für die Kennzeichnung von Zeitreihendaten das wachsende Vertrauen in alternative Kennzeichnungsstrategien und deutet auf eine potenzielle Veränderung der Art und Weise hin, wie Daten für ML-Anwendungen vorbereitet werden.

dc.description.abstract

Machine learning (ML) has become a cornerstone in research and industry, revolutionizing how data is analyzed and utilized across various sectors. At the heart of ML’s effectiveness lies the crucial need for accurately labeled data, the foundation upon which these algorithms learn and make predictions. As ML models grow in complexity and size, their thirst for vast amounts of data intensifies, presenting a significant challenge. Obtaining accurately labeled data, especially for time series data, is difficult. Time series data is particularly challenging due to its dynamic nature — time series continuously expand, and evolve, labels and labeling rules undergo changes, and even the subjective interpretation of what these labels should represent changes over time. Moreover, the task of labeling itself is a costly endeavor, primarily due to the extensive amount of time and resources required. The field has seen the emergence of new methodologies aimed at mitigating these challenges, acknowledging the importance of labeling. One such promising approach is the application of weak supervision in conjunction with end models. In this work, a labeling workflow and demo application are developed to enable testing and comparing the performance of end models and their labeling accuracy against traditional manual labeling practices and supervised benchmarks. Preliminary results indicate the general feasibility of these advanced techniques, although the specific results are not universally generalizable. Nevertheless, study participants’ positive outlook regarding using these tools for time series data labeling highlights growing confidence in alternative labeling strategies, suggesting a potential shift in how data is prepared for ML applications.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Time Series Data

dc.subject

Label Generation

dc.subject

Machine Learning

dc.subject

Weak Supervision

dc.subject

Programmatic Labeling

dc.title

Label generation for time series data

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2024.119801

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Johannes Windischbauer

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17183630

dc.description.numberOfPages

113

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

item.languageiso639-1

item.openairetype

master thesis

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.grantfulltext

open

item.cerifentitytype

Publications

item.fulltext

with Fulltext

item.mimetype

application/pdf

item.openaccessfulltext

Open Access

crisitem.author.dept

E194 - Institut für Information Systems Engineering

crisitem.author.parentorg

E180 - Fakultät für Informatik

Enthalten in den Sammlungen:

Thesis

Volltext (Version of Record (published version))

Adobe PDF

(2.83 MB)

Urheberrechtsschutz

Zur Kurzanzeige

Seiten Aufrufe

370

aufgerufen am 21.05.2024

Download(s)

432

aufgerufen am 21.05.2024

Google Scholar^TM

Check

Seiten Aufrufe

Download(s)

Google ScholarTM

Google Scholar^TM