<div class="csl-bib-body">
<div class="csl-entry">Reisecker, M. (2025). <i>Hybrid CPU-GPU execution for serverless AI : a static and dynamic analysis approach</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.127303</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.127303
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/224995
-
dc.description.abstract
Serverless computing has become a cornerstone of modern cloud infrastructures due to its scalability, simplicity, and cost efficiency. At the same time, artificial intelligence workloads increasingly rely on GPU acceleration to meet growing computational demands. However, existing serverless platforms rarely support GPUs in an automated way. Developers must still manually decide whether a function should run on a CPU or a GPU. This contradicts the main principle of serverless computing, which is to abstract away infrastructure decisions. This work presents a hybrid framework that combines static code analysis and dynamic runtime monitoring to enable adaptive CPU-GPU execution in serverless environments. At deployment time, a Static-Analyzer inspects Python functions using Abstract Syntax Trees (AST) to identify computational patterns, imported libraries, and tensor operations. Based on these findings, it predicts whether GPU acceleration is likely to be beneficial. During runtime, a Dynamic-Reevaluator observes latency and resource-usage metrics. If performance thresholds are exceeded or workload characteristics change, the system can automatically migrate the function between CPU and GPU execution. A prototype of this hybrid system was implemented on Knative, an open-source Kubernetes-based serverless framework. The evaluation with representative AI workloads, ranging from matrix multiplication to large language model (LLM) inference, shows that the proposed approach can significantly improve performance and cost efficiency. In adaptive (AUTO) mode, latency was reduced by up to 70–80% and execution costs by about 60–70% compared to CPU-only runs, while avoiding unnecessary GPU allocations in lightweight scenarios. Overall, this work demonstrates that integrating static and dynamic analysis in a unified framework can make GPU acceleration more accessible and efficient in serverless environments. It provides a foundation for more intelligent, cost-aware scheduling mechanisms that better align with the core principles of serverless computing.
en
dc.description.abstract
Serverless Computing ist aufgrund seiner Skalierbarkeit, Einfachheit und Kosteneffizienz zu einem Eckpfeiler moderner Cloud-Infrastrukturen geworden. Gleichzeitig sind Workloads im Bereich der künstlichen Intelligenz zunehmend auf GPU-Beschleunigung angewiesen. Allerdings unterstützen bestehende Serverless-Plattformen GPUs nur selten automatisiert. Entwickler müssen weiterhin manuell entscheiden, ob eine Funktion auf einer CPU oder einer GPU ausgeführt werden soll. Dies widerspricht dem Grundprinzip des Serverless Computing, das darin besteht, Infrastrukturentscheidungen zu abstrahieren. Diese Arbeit stellt ein hybrides Framework vor, das statische Codeanalyse und dynamische Laufzeitüberwachung kombiniert, um eine adaptive CPU-GPU-Ausführung in “serverless” Umgebungen zu ermöglichen. Zum Zeitpunkt der Bereitstellung überprüft ein “Static Analyzer” Python-Funktionen mithilfe von abstrakten Syntaxbäumen (AST), um Rechenmuster, importierte Bibliotheken und Tensoroperationen zu identifizieren. Auf Grundlage dieser Ergebnisse wird bestimmt, ob GPU-Beschleunigung von Vorteil ist. Während der Laufzeit beobachtet ein “Dynamic-Reevaluator” Latenz- und Ressourcenverbrauchsmetriken. Wenn Leistungsschwellen überschritten werden oder sich die Eigenschaften der Workloads ändern, kann das System die Funktion automatisch zwischen CPU- und GPU-Ausführung migrieren. Ein Prototyp dieses Hybridsystems wurde auf Knative implementiert, einem Open-Source-Serverless-Framework, das auf Kubernetes basiert. Die Bewertung mit repräsentativen KI-Workloads, die von Matrixmultiplikation bis hin zur Inferenz mittels Sprachmodelle reichen, zeigt, dass der vorgeschlagene Ansatz die Leistung und Kosteneffizienz erheblich verbessern kann. Im adaptiven (AUTO) Modus wurden die Latenz um bis zu 70–80% und die Ausführungskosten um etwa 60–70% im Vergleich zu reinen CPU-Läufen reduziert, während unnötige GPU-Zuweisungen in leichtgewichtigen Szenarien vermieden wurden. Insgesamt zeigt diese Arbeit, dass die Integration von statischer und dynamischer Analyse in einem einheitlichen Framework die GPU-Beschleunigung in serverlosen Umgebungen zugänglicher und effizienter machen kann. Sie bildet die Grundlage für intelligentere, kostenbewusste Planungsmechanismen, die besser mit den Kernprinzipien des serverlosen Rechnens übereinstimmen.
de
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
3D Continuum
en
dc.subject
Serverless Compuing
en
dc.subject
Cloud
en
dc.subject
Edge
en
dc.subject
Computing Continuum
en
dc.subject
AI
en
dc.title
Hybrid CPU-GPU execution for serverless AI : a static and dynamic analysis approach
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.127303
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Maximilian Reisecker
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Pusztai, Thomas Werner
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering