Pazourek, M. (2019). Serverless edge analytics : Investigation on the strenghts and drawbacks of serverless edge analytics with current tools and frameworks [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2019.59322
In den letzen Jahren entstand die Situation, dass insbesonders jene Daten, welche auf Endgeräten generiert werden, heute großteils nicht für Datenanalysen genutzt werden können. Machine Learning benötigt enorme Mengen an Trainingsdaten um Vorhersagemodelle erstellen zu können und würde von all jenen Daten profitieren, welche derzeit nur am Rande des Internets, auf Endgeräten, verfügbar sind. Edge Computing verspricht die Latenzprobleme der derzeitigen Internetinfrastuktur zu reduzieren. Serverless Computing ist zudem eine Neuerung welche vorangig im Cloud Computing entstanden ist, aber auch auf Edge Geräten sinnvoll erscheint. Der Zweck dieser Diplomarbeit ist die Erforschung von Serverless Edge Analytics. Um dies zu erforschen, wurden zu Beginn der Arbeit umfassende Analysen über bestehende Frameworks, die Anforderungen durch Machine Learning, sowie die Anforderungen an Monitoring von Serverless Functions, basierend auf relevanter Literatur durchgeführt. Anschließend wurde die Umsetzbarkeit sowie die Sinnhaftigkeit von dynamischem Weiterleiten von Serverless Triggers, von Edge auf Cloud Geräte, am Beispiel von AWS Greengrass untersucht. Die Erkenntnisse dieser Arbeit zeigen, dass Monitoring von AWS Greengrass derzeit nicht sinnvoll umgesetzt werden kann. Zudem haben die Experimente ergeben, dass Weiterleiten von AWS Greengrass Triggern an das cloudbasierte AWS Lambda mit der Implementierung von AWS extrem hohe Antwortzeiten aufweist. Zusammenfassend bestätigen die Ergebnisse dieser Diplomarbeit abermals diverse andere Forschungsarbeiten darin, dass insbesonders Serverless Edge Computing bzw. generell Serverless Computing nicht für Anwendungsfälle mit Anspruch an niedrige Antwortzeiten (Latenz) geeignet erscheinen und dass zudem noch einige Einschränkungen die Verwendung von Machine Learning erschweren.
de
By now, we have tremendous amounts of data that is only available at end-devices from where data can, due to connection limitations and missing capacity at cloud data centers, not be sent to central locations for analysis. Machine learning training requires enormous amounts of input data to find meaningful patterns and would benefit by the availability of the data that can currently not be sent to centralized clouds. To reduce the resource overhead of cloud services, the Function as a Service (FaaS) paradigm was recently proposed as a possible improvement for cloud data centers. Novel frameworks bring serverless functions on edge computing devices too and could dramatically improve analytical services. The aim of this work is the analysis of serverless edge computing under the context of applying machine learning at those edge devices in order to use data that can not easily be sent to the cloud. In order to do this, beside analysis of existing frameworks and literature, it was a task to investigate on the feasibility of implementing an extension for AWS Greengrass that allows dynamic forwarding of serverless function triggers to edge or cloud devices based on the utilization each AWS Greengrass edge node. The findings of this thesis reveal that monitoring the processing time and utilization of AWS Greengrass nodes is not meaningful with todays solutions. Furthermore it was found that forwarding triggers of serverless functions from AWS Greengrass to the cloud-based AWS Lambda results in extremely slow response times. As it was necessary to test machine learning workload on AWS Lambda, various insights and limitations were found during this process. To summarize, serverless (edge) computing was shown to be limited for low-latency applications, various possible further research fields, like Federated Learning, have been identified as promising ways to tackle the challenges of analyzing data within serverless edge computing and edge computing in the future.