Hybrid CPU-GPU execution for serverless AI : a static and dynamic analysis approach

Reisecker, Maximilian

doi:10.34726/hss.2025.127303

DC Field

Value

Language

dc.contributor.advisor

Nastic, Stefan

dc.contributor.author

Reisecker, Maximilian

dc.date.accessioned

2026-01-20T09:34:11Z

dc.date.issued

2025

dc.date.submitted

2025-12

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Reisecker, M. (2025). <i>Hybrid CPU-GPU execution for serverless AI : a static and dynamic analysis approach</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.127303</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2025.127303

dc.identifier.uri

http://hdl.handle.net/20.500.12708/224995

dc.description.abstract

Serverless computing has become a cornerstone of modern cloud infrastructures due to its scalability, simplicity, and cost efficiency. At the same time, artificial intelligence workloads increasingly rely on GPU acceleration to meet growing computational demands. However, existing serverless platforms rarely support GPUs in an automated way. Developers must still manually decide whether a function should run on a CPU or a GPU. This contradicts the main principle of serverless computing, which is to abstract away infrastructure decisions. This work presents a hybrid framework that combines static code analysis and dynamic runtime monitoring to enable adaptive CPU-GPU execution in serverless environments. At deployment time, a Static-Analyzer inspects Python functions using Abstract Syntax Trees (AST) to identify computational patterns, imported libraries, and tensor operations. Based on these findings, it predicts whether GPU acceleration is likely to be beneficial. During runtime, a Dynamic-Reevaluator observes latency and resource-usage metrics. If performance thresholds are exceeded or workload characteristics change, the system can automatically migrate the function between CPU and GPU execution. A prototype of this hybrid system was implemented on Knative, an open-source Kubernetes-based serverless framework. The evaluation with representative AI workloads, ranging from matrix multiplication to large language model (LLM) inference, shows that the proposed approach can significantly improve performance and cost efficiency. In adaptive (AUTO) mode, latency was reduced by up to 70–80% and execution costs by about 60–70% compared to CPU-only runs, while avoiding unnecessary GPU allocations in lightweight scenarios. Overall, this work demonstrates that integrating static and dynamic analysis in a unified framework can make GPU acceleration more accessible and efficient in serverless environments. It provides a foundation for more intelligent, cost-aware scheduling mechanisms that better align with the core principles of serverless computing.

dc.description.abstract

Serverless Computing ist aufgrund seiner Skalierbarkeit, Einfachheit und Kosteneffizienz zu einem Eckpfeiler moderner Cloud-Infrastrukturen geworden. Gleichzeitig sind Workloads im Bereich der künstlichen Intelligenz zunehmend auf GPU-Beschleunigung angewiesen. Allerdings unterstützen bestehende Serverless-Plattformen GPUs nur selten automatisiert. Entwickler müssen weiterhin manuell entscheiden, ob eine Funktion auf einer CPU oder einer GPU ausgeführt werden soll. Dies widerspricht dem Grundprinzip des Serverless Computing, das darin besteht, Infrastrukturentscheidungen zu abstrahieren. Diese Arbeit stellt ein hybrides Framework vor, das statische Codeanalyse und dynamische Laufzeitüberwachung kombiniert, um eine adaptive CPU-GPU-Ausführung in “serverless” Umgebungen zu ermöglichen. Zum Zeitpunkt der Bereitstellung überprüft ein “Static Analyzer” Python-Funktionen mithilfe von abstrakten Syntaxbäumen (AST), um Rechenmuster, importierte Bibliotheken und Tensoroperationen zu identifizieren. Auf Grundlage dieser Ergebnisse wird bestimmt, ob GPU-Beschleunigung von Vorteil ist. Während der Laufzeit beobachtet ein “Dynamic-Reevaluator” Latenz- und Ressourcenverbrauchsmetriken. Wenn Leistungsschwellen überschritten werden oder sich die Eigenschaften der Workloads ändern, kann das System die Funktion automatisch zwischen CPU- und GPU-Ausführung migrieren. Ein Prototyp dieses Hybridsystems wurde auf Knative implementiert, einem Open-Source-Serverless-Framework, das auf Kubernetes basiert. Die Bewertung mit repräsentativen KI-Workloads, die von Matrixmultiplikation bis hin zur Inferenz mittels Sprachmodelle reichen, zeigt, dass der vorgeschlagene Ansatz die Leistung und Kosteneffizienz erheblich verbessern kann. Im adaptiven (AUTO) Modus wurden die Latenz um bis zu 70–80% und die Ausführungskosten um etwa 60–70% im Vergleich zu reinen CPU-Läufen reduziert, während unnötige GPU-Zuweisungen in leichtgewichtigen Szenarien vermieden wurden. Insgesamt zeigt diese Arbeit, dass die Integration von statischer und dynamischer Analyse in einem einheitlichen Framework die GPU-Beschleunigung in serverlosen Umgebungen zugänglicher und effizienter machen kann. Sie bildet die Grundlage für intelligentere, kostenbewusste Planungsmechanismen, die besser mit den Kernprinzipien des serverlosen Rechnens übereinstimmen.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

3D Continuum

dc.subject

Serverless Compuing

dc.subject

Cloud

dc.subject

Edge

dc.subject

Computing Continuum

dc.subject

dc.title

Hybrid CPU-GPU execution for serverless AI : a static and dynamic analysis approach

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2025.127303

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Maximilian Reisecker

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Pusztai, Thomas Werner

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17751738

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

exstaff

tuw.advisor.orcid

0000-0003-0410-6315

tuw.assistant.orcid

0000-0001-9765-6310

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.cerifentitytype

Publications

item.openaccessfulltext

Open Access

item.openairetype

master thesis

item.languageiso639-1

item.grantfulltext

open

item.mimetype

application/pdf

item.fulltext

with Fulltext

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.54 MB)

In Copyright

Show simple item record

Page view(s)

checked on Jan 20, 2026

Download(s)

checked on Jan 20, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM