Lackinger, A. (2023). Towards accurate Time series predictions for cloud workloads [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.115061
E194 - Institut für Information Systems Engineering
-
Date (published):
2023
-
Number of Pages:
84
-
Keywords:
Workload prediction; Time series forecasting; Multi-step prediction; Generalisation; Naïve ratio; Univariate models; LSTM; Transformer
en
Abstract:
Eine der großen, bislang ungelösten Herausforderungen im Bereich des Cloud Computing besteht darin, die Vorhersage von Cloud Workloads durchzuführen. Eine genaue Vorhersage der Workloads ist schwierig, da diese meist hochdimensional sind und stark variieren. Ungenaue Vorhersagen können zu einer Verschwendung von Ressourcen führen oder dazu, dass Service Level Agreements (SLAs) nicht eingehalten werden. Zahlreiche Forscherinnen und Forscher beschäftigen sich mit der Optimierung solcher Vorhersagen. Trotz des erheblichen Interesses auf diesem Gebiet bestehen nach wie vor offene Fragestellungen. Ein Aspekt davon betrifft die Tatsache, dass bisher kein einheitliches Datenset verwendet wird, das dazu dienen könnte, die Leistung verschiedener Methoden besser miteinander zu vergleichen. Darüber hinaus haben einige wissenschaftliche Arbeiten wichtige Details zur Implementierung ausgelassen, was anderen Forschenden die Wiederverwendung erschwert. Das Ziel dieser Arbeit besteht darin eine solide Grundlage für die Vorhersage von Cloud Workloads zu bieten. Zu Beginn der Arbeit wird das „Google Cluster Trace 2011” Datenset vorgestellt, welches trotz seiner häufigen Verwendung in der Forschung bisher keine einheitlichen Test- und Trainingsdaten aufweist. Daher werden die Daten für die aktuelle und für zukünftige Forschung aufbereitet und als Open Source verfügbar gemacht. Im nächsten Abschnitt werden verschiedene Methoden zur Zeitreihenprognose behandelt und es wird ein Vergleich zwischen statistischen, Machine Learning- und Deep Learning-Ansätzen durchgeführt. Der Fokus liegt hier auf der Frage, wie viele historische Daten diese Methoden benötigen, um genaue Vorhersagen zu treffen, sowie auf ihrer Genauigkeit bei der Vorhersage mehrerer Zeitpunkte in der Zukunft. Im Rahmen der Vergleiche werden einige Metriken analysiert. Unter anderem wird auch eine neue Metrik, die „Naïve Ratio” betrachtet, um zu analysieren, inwieweit diese verwendet werden kann um ungewünschtes Verhalten wie beispielsweise Overfitting zu verhindern. Anschließend werden Generalisierungstests durchgeführt, um die Robustheit der Methoden gegenüber neuen Zeitreihendaten zu bewerten. Hierfür werden die Jobs in Cluster gruppiert, damit ein Teil dieser Cluster für Training, Validierung und Tests genutzt werden kann.
de
One of the major, unresolved challenges in the field of cloud computing is performing cloud workload prediction. Accurate workload prediction is difficult because the workloads are usually high-dimensional and highly variable. Inaccurate predictions can lead to wasted resources or to failure to meet service level agreements (SLAs). Numerous researchers are dedicated to optimising such predictions. Despite the considerable interest in this area, many open questions remain.One aspect of this is the lack of a uniform data set with which the performance of different methods could be better compared. In addition, some scientific papers have omitted important implementation details, making it difficult for other researchers to reuse. The goal of this work is to provide a solid foundation for cloud workload prediction. At the beginning of the thesis, the “Google Cluster Trace 2011” dataset is introduced, which, despite its frequent use in research, lacks unified test and training data. Therefore, the data is prepared for current and future research and made available as open source. The subsequent section discusses different methods for time series forecasting and compares statistical, Machine Learning, and Deep Learning approaches. The focus here is on how much historical data these methods require to make accurate predictions, as well as their accuracy in predicting multiple points in time in the future. A number of metrics are analysed as part of the comparisons. Among others, a new metric, the “Naïve Ratio” is also considered to analyse to what extent it can be used to prevent undesired behaviours, such as overfitting. Subsequently, generalisation tests are performed to evaluate the robustness of the methods to new time series data. For this purpose, the jobs are grouped into clusters so that a part of these clusters can be used for training, validation and testing.