Quality-Driven Request Routing and Adaptive Monitoring for Services over the Computing Continuum

Karanovic, Ignjat

doi:10.34726/hss.2026.131407

DC Field

Value

Language

dc.contributor.advisor

Frangoudis, Pantelis

dc.contributor.author

Karanovic, Ignjat

dc.date.accessioned

2026-03-16T12:25:51Z

dc.date.issued

2026

dc.date.submitted

2026-02

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Karanovic, I. (2026). <i>Quality-Driven Request Routing and Adaptive Monitoring for Services over the Computing Continuum</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.131407</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2026.131407

dc.identifier.uri

http://hdl.handle.net/20.500.12708/226963

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Eine effiziente Verteilung von Anfragen in Edge- und Cloud-Computing-Umgebungen ist entscheidend für die Aufrechterhaltung einer optimalen Systemleistung. Traditionelle Load-Balancing-Ansätze basieren häufig auf statischen Konfigurationen und passen sich nicht an veränderliche Bedingungen wie schwankende Netzwerklatenzen, verfügbare Ressourcen oder unterschiedliche Workload-Verteilungen an. Dies führt zu einer ineffizienten Ressourcennutzung und einer Verschlechterung der Quality of Service (QoS). Diese Arbeit geht über bestehende statische und rein latenzorientierte Load-Balancing-Ansätze hinaus und führt den Adaptive Score-based Routing Balancer (ASRB) ein, einen dynamischen, scorebasierten Mechanismus zur Anfrageweiterleitung für Kubernetes-basierte Service-Deployments. ASRB berücksichtigt gemeinsam Informationen auf Infrastrukturebene, Messungen der Antwortzeit sowie anwendungsspezifische Qualitätsindikatoren für die Verarbeitung von Machine-Learning-(ML-)Workloads. Konkret wird als anwendungsspezifischer Indikator die Vorhersagegenauigkeit der eingesetzten ML-Service-Instanzen herangezogen, die gemeinsam mit der Latenz zu einem gewichteten Gesamtscore kombiniert wird. Dieser Score wird von Anfrage-Routing-Proxys genutzt, die nativ und nahtlos in Kubernetes integriert sind, um zur Laufzeit die geeignetste Service-Instanz auszuwählen. Für fundierte Routing-Entscheidungen sind aktuelle Informationen über den Infrastruktur- und Servicezustand erforderlich. Die Erfassung solcher Informationen erfordert jedoch das Monitoring einer Vielzahl von Laufzeitmetriken über mehrere Systemschichten hinweg, was bei großskaligen Service-Deployments zu erheblichem Netzwerk- und Verarbeitungsaufwand führen kann. Um dieser Herausforderung zu begegnen, wird ein adaptiver Monitoring-Ansatz eingeführt. Anstatt alle Knoten gleichmäßig zu überwachen, konzentriert der Proxy seine Monitoring-Aktivitäten auf Knotten und Instanzen, die mit höherer Wahrscheinlichkeit die aktuellen QoS-Ziele erfüllen, wodurch der Overhead reduziert wird, ohne die Genauigkeit der Routing-Entscheidungen zu beeinträchtigen. ASRB wird ohne Änderungen an Kubernetes implementiert und lässt sich daher einfach in bestehenden Cluster-Umgebungen deployen und betreiben. Umfangreiche Experimente in einer Kubernetes-basierten Umgebung zeigen, dass ASRB – abhängig von seiner Konfiguration – statische und latenzorientierte State-of-the-Art-Mechanismen hinsichtlich der Antwortzeit übertreffen, höhere Genauigkeit erzielen kann, wenn diese stärker gewichtet wird, oder flexible, vom Betreiber steuerbare Trade-offs ermöglicht. Gleichzeitig weist ASRB geringere Fehlerraten, höhere Reaktionsfähigkeit gegenüber Änderungen der Betriebsbedingungen sowie deutlich reduzierten Monitoring-Overhead auf.

dc.description.abstract

Efficient request distribution in edge and cloud computing environments is crucial for maintaining optimal system performance. Traditional load-balancing approaches often rely on static configurations, failing to adapt to changing conditions such as varying network latency, resource availability, and workload distribution. This leads to inefficient resource utilization and degraded Quality of Service (QoS). This thesis goes beyond existing static and latency-oriented load balancing approaches by introducing the Adaptive Score-based Routing Balancer (ASRB), a dynamic, score-based request routing mechanism designed for Kubernetes-based service deployments. ASRB jointly considers infrastructure-level information, response time measurements, and application-level quality indicators, with a particular focus on serving Machine Learning (ML) workloads. Specifically, and given this focus, the application-level indicator considered in this work is the prediction accuracy of the deployed ML service instances, which is combined with latency into a single weighted score. This score is used by request-routing proxies natively and seamlessly integrated with Kubernetes to select the most suitable service instance to serve each request at runtime. For effective routing decisions, up-to-date information is required on the infrastructure and service state. However, collecting such information involves monitoring a wide range of runtime metrics across multiple system layers, which can introduce significant traffic and processing overhead for large-scale of service deployments. To address this challenge, we introduce an adaptive monitoring process. Instead of probing all nodes uniformly, the proxy concentrates its monitoring efforts on pods and nodes that are more likely to satisfy the current QoS objectives, thereby reducing overhead while preserving accurate routing decisions.ASRB is implemented without requiring any modifications to Kubernetes, which makes it straightforward to deploy and operate in existing cluster environments. Extensive testbed experiments conducted in a Kubernetes-based setup show that, depending on its configuration, ASRB can outperform static and latency-oriented state-of-the-art mechanisms in terms of response time, achieve higher accuracy when this matters more, or strike favorable trade-offs in a flexible and operator-controllable way. At the same time, it does so with reduced failure rates, higher responsiveness to changes in the operating environment, and significantly lower monitoring overhead.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

edge computing

dc.subject

cloud computing

dc.subject

Kubernetes

dc.subject

adaptive load balancing

dc.subject

request routing

dc.subject

QoS-aware scheduling

dc.subject

inference latency

dc.subject

machine learning services

dc.subject

prediction accuracy

dc.subject

adaptive monitoring

dc.title

Quality-Driven Request Routing and Adaptive Monitoring for Services over the Computing Continuum

dc.title.alternative

Qualitätsorientiertes Anforderungsrouting und Adaptives Überwachung für Dienste im Rechenkontinuum

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2026.131407

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Ignjat Karanovic

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17803022

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0001-6901-7714

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.grantfulltext

open

item.cerifentitytype

Publications

item.openairetype

master thesis

item.mimetype

application/pdf

item.languageiso639-1

item.fulltext

with Fulltext

item.openaccessfulltext

Open Access

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.27 MB)

In Copyright

Show simple item record

Page view(s)

checked on Mar 16, 2026

Download(s)

checked on Mar 16, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM