<div class="csl-bib-body">
<div class="csl-entry">Karanovic, I. (2026). <i>Quality-Driven Request Routing and Adaptive Monitoring for Services over the Computing Continuum</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.131407</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2026.131407
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/226963
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Eine effiziente Verteilung von Anfragen in Edge- und Cloud-Computing-Umgebungen ist entscheidend für die Aufrechterhaltung einer optimalen Systemleistung. Traditionelle Load-Balancing-Ansätze basieren häufig auf statischen Konfigurationen und passen sich nicht an veränderliche Bedingungen wie schwankende Netzwerklatenzen, verfügbare Ressourcen oder unterschiedliche Workload-Verteilungen an. Dies führt zu einer ineffizienten Ressourcennutzung und einer Verschlechterung der Quality of Service (QoS). Diese Arbeit geht über bestehende statische und rein latenzorientierte Load-Balancing-Ansätze hinaus und führt den Adaptive Score-based Routing Balancer (ASRB) ein, einen dynamischen, scorebasierten Mechanismus zur Anfrageweiterleitung für Kubernetes-basierte Service-Deployments. ASRB berücksichtigt gemeinsam Informationen auf Infrastrukturebene, Messungen der Antwortzeit sowie anwendungsspezifische Qualitätsindikatoren für die Verarbeitung von Machine-Learning-(ML-)Workloads. Konkret wird als anwendungsspezifischer Indikator die Vorhersagegenauigkeit der eingesetzten ML-Service-Instanzen herangezogen, die gemeinsam mit der Latenz zu einem gewichteten Gesamtscore kombiniert wird. Dieser Score wird von Anfrage-Routing-Proxys genutzt, die nativ und nahtlos in Kubernetes integriert sind, um zur Laufzeit die geeignetste Service-Instanz auszuwählen. Für fundierte Routing-Entscheidungen sind aktuelle Informationen über den Infrastruktur- und Servicezustand erforderlich. Die Erfassung solcher Informationen erfordert jedoch das Monitoring einer Vielzahl von Laufzeitmetriken über mehrere Systemschichten hinweg, was bei großskaligen Service-Deployments zu erheblichem Netzwerk- und Verarbeitungsaufwand führen kann. Um dieser Herausforderung zu begegnen, wird ein adaptiver Monitoring-Ansatz eingeführt. Anstatt alle Knoten gleichmäßig zu überwachen, konzentriert der Proxy seine Monitoring-Aktivitäten auf Knotten und Instanzen, die mit höherer Wahrscheinlichkeit die aktuellen QoS-Ziele erfüllen, wodurch der Overhead reduziert wird, ohne die Genauigkeit der Routing-Entscheidungen zu beeinträchtigen. ASRB wird ohne Änderungen an Kubernetes implementiert und lässt sich daher einfach in bestehenden Cluster-Umgebungen deployen und betreiben. Umfangreiche Experimente in einer Kubernetes-basierten Umgebung zeigen, dass ASRB – abhängig von seiner Konfiguration – statische und latenzorientierte State-of-the-Art-Mechanismen hinsichtlich der Antwortzeit übertreffen, höhere Genauigkeit erzielen kann, wenn diese stärker gewichtet wird, oder flexible, vom Betreiber steuerbare Trade-offs ermöglicht. Gleichzeitig weist ASRB geringere Fehlerraten, höhere Reaktionsfähigkeit gegenüber Änderungen der Betriebsbedingungen sowie deutlich reduzierten Monitoring-Overhead auf.
de
dc.description.abstract
Efficient request distribution in edge and cloud computing environments is crucial for maintaining optimal system performance. Traditional load-balancing approaches often rely on static configurations, failing to adapt to changing conditions such as varying network latency, resource availability, and workload distribution. This leads to inefficient resource utilization and degraded Quality of Service (QoS). This thesis goes beyond existing static and latency-oriented load balancing approaches by introducing the Adaptive Score-based Routing Balancer (ASRB), a dynamic, score-based request routing mechanism designed for Kubernetes-based service deployments. ASRB jointly considers infrastructure-level information, response time measurements, and application-level quality indicators, with a particular focus on serving Machine Learning (ML) workloads. Specifically, and given this focus, the application-level indicator considered in this work is the prediction accuracy of the deployed ML service instances, which is combined with latency into a single weighted score. This score is used by request-routing proxies natively and seamlessly integrated with Kubernetes to select the most suitable service instance to serve each request at runtime. For effective routing decisions, up-to-date information is required on the infrastructure and service state. However, collecting such information involves monitoring a wide range of runtime metrics across multiple system layers, which can introduce significant traffic and processing overhead for large-scale of service deployments. To address this challenge, we introduce an adaptive monitoring process. Instead of probing all nodes uniformly, the proxy concentrates its monitoring efforts on pods and nodes that are more likely to satisfy the current QoS objectives, thereby reducing overhead while preserving accurate routing decisions.ASRB is implemented without requiring any modifications to Kubernetes, which makes it straightforward to deploy and operate in existing cluster environments. Extensive testbed experiments conducted in a Kubernetes-based setup show that, depending on its configuration, ASRB can outperform static and latency-oriented state-of-the-art mechanisms in terms of response time, achieve higher accuracy when this matters more, or strike favorable trade-offs in a flexible and operator-controllable way. At the same time, it does so with reduced failure rates, higher responsiveness to changes in the operating environment, and significantly lower monitoring overhead.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
edge computing
en
dc.subject
cloud computing
en
dc.subject
Kubernetes
en
dc.subject
adaptive load balancing
en
dc.subject
request routing
en
dc.subject
QoS-aware scheduling
en
dc.subject
inference latency
en
dc.subject
machine learning services
en
dc.subject
prediction accuracy
en
dc.subject
adaptive monitoring
en
dc.title
Quality-Driven Request Routing and Adaptive Monitoring for Services over the Computing Continuum
en
dc.title.alternative
Qualitätsorientiertes Anforderungsrouting und Adaptives Überwachung für Dienste im Rechenkontinuum
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2026.131407
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Ignjat Karanovic
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering