Zeitelhofer, T. (2018). Klassifikation von Monitoringdatenreihen mittels Machine-Learning : ein Feature-basieerter Ansatz [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.45849
E311 - Institut für Fertigungstechnik und Hochleistungslasertechnik
-
Date (published):
2018
-
Number of Pages:
53
-
Keywords:
Machine Learning; Klassifikation
de
Machine Learnning; Classification
en
Abstract:
Durch die Digitalisierung befindet sich die gesamte fertigende Industrie im Wandel. In der Produktion wird immer mehr Sensorik verwendet, um Optimierungspotentiale in Fertigungsprozessen auffinden zu können. Die Menge an Daten die hierbei anfällt ist, oftmals unüberschaubar und wird daher kaum bis gar nicht genutzt. Eine wichtige Gruppe von Produktionsdaten stellt die Gruppe der Zeitreihendaten dar. In dieser Arbeit wird eine Software Applikation vorgestellt, mit der es möglich ist, für die UserInnen relevante Zeitreihenabschnitte zu markieren. Die UserInnen bekommen keine Vorgaben, nach welchen Kriterien die Bewertung zu erfolgen hat, sondern sollen ihre Erfahrung auf dem Gebiet nutzen, um die Relevanz der Abschnitte festzulegen. Die generierten Informationen dienen als Trainingsgrundlage für einen Machine Learning Algorithmus. Dieser Ansatz wird gewählt, da künstliche Intelligenz schon in anderen Bereichen, wie beispielsweise der Suche nach Forschungsarbeiten (http://www.arxivsanity. com/), erfolgreich zum Einsatz gekommen ist. Durch das Feedback des/der Users/ in soll der Machine Learning Algorithmus lernen, welche Datenreihen diese als relevant einstuft und welche nicht. Dadurch soll der Algorithmus in der Lage sein, neue Datenreihen richtig zu kategorisieren. Ein wichtiger Bereich des Machine Learnings ist das Feature Engineering. Es werden drei verschiedene Featuresets zum Trainieren des Machine Learning Algorithmus eingesetzt: inhärente, generierte und kombinierte Features. Ziel dieser Arbeit ist es, das Verhalten eines Machine Learning Algorithmus bei Verwendung verschiedener Featuresets zu zeigen. Zu Beginn wird überblicksartig die Thematik Machine Learning und Feature Engineering erläutert. In einem weiteren Schritt wird die Methodik und Implementierung der Applikation behandelt, wobei auf die Auswahl der Features detaillierter eingegangen wird. Abschließend wird eine Lernkurve auf Basis der Genauigkeit erstellt. Es wird gezeigt, dass die Genauigkeit durch das Training mit dem kombinierten und inhärenten Featureset besser ist, als durch das Training mit dem generierten Featurset.
de
Due to the digitization the whole manufacturing industry is changing. To find potential improvements, a rising amount of sensors are used in production. The high quantity of data which is generated is often incomprehensible and therefore hardly used. An important area of production data is the group of timeseries data. In this master thesis a software application is created, which allows the user to mark relevant sections of timeseries data. There are no specifications for the user, to mark the sections. The user shall use his experience to decide whether the time series segment is relevnat or not. The generated information is used as the base for training of a machine learning algorithm. This approach is chosen, because artifical intelligence has successfully been used in other areas, like in searching for research papers in the internet (http://www.arxivsanity. com/). The aim of the training is that the machine learning algorithm is able to decide whether a new segment is potentially relevant or not. An important part of machine learning is feature engineering. Three sets of features are used for the training of the algorithm: inherent, generated and combined featuresets. The goal of this work is to show the behavior of the machine learning algorithm due to the different sets of features. At the beginning of the work the topics machine learning and feature engineering are covered. Furthermore the methods and the implementation of the application are explained. The work focuses on the different sets of features and on feature engineering itself. Finally a learning curve based on the calculated accuracy is created. It is demonstrated that the accuracy due to the training with the combined and inherent featureset is higher than due to the training with the generetad featureset.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers