Ziller, T. M. (2025). A Dynamic Routing Approach for Sustainable Language Model Inference [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.122663
Große Sprachmodelle (LLMs) bieten beispiellose Fähigkeiten, doch ihre breite Anwendung wird durch den erheblichen Bedarf an Rechenressourcen während der Inferenz, insbesondere den Energieverbrauch, eingeschränkt. Statische One-Model-Fits-All-Inferenzstrategien sind oft ineffizient, da sie das vielfältige Spektrum verfügbarer Modelle nicht nutzen und variierende Anforderungen von Anfragen nicht berücksichtigen. Diese Arbeit adressiert diese Herausforderung durch den Vorschlag und die Evaluierung eines dynamischen, kontextsensitiven Routing-Frameworks, das darauf ausgelegt ist, den Kompromiss zwischen Inferenzgenauigkeit und Energieeffizienz zu optimieren. Das vorgeschlagene Middleware-Framework verwendet kontextuelle Multi-Armed-Bandit (MAB) Algorithmen, um eine adaptive Routing-Policy online zu lernen. Es verarbeitet eingehende Anfragen durch die Extraktion einfacher Merkmale und leitet jede Anfrage an das am besten geeignete Modell aus einem heterogenen Pool weiter, basierend auf der gelernten Leistung hinsichtlich Genauigkeit und gemessenem Energieverbrauch. Dieser Online-Lernansatz operiert unter partiellem Feedback, vermeidet die Notwendigkeit umfangreicher Offline-Kalibrierung und vereinfacht die Integration neuer Modelle.Wir haben das Framework implementiert und evaluiert, indem wir etablierte kontextuelle MAB-Strategien auf einem vielfältigen Datensatz von fünf Benchmark-Aufgaben und einem Pool von 16 aktuellen, frei zugänglichen LLMs angewendet haben. Experimentelle Ergebnisse zeigen, dass die dynamischen Routing-Strategien statische (Einzelmodell-) und zufällige Baselines (Referenzstrategien) durchweg übertreffen, indem sie überlegene Genauigkeits-Energie-Betriebspunkte erreichen, die oft über die statische Pareto-Front hinausgehen. Im Vergleich zum zufälligen Routing erzielten die kontextuellen Banditen Genauigkeitssteigerungen von 22 Prozent bei gleichzeitiger Reduzierung des kumulativen Energieverbrauchs um 31 Prozent. Das Framework ermöglichte ein effektives Navigieren des Genauigkeits-Energie-Kompromisses basierend auf einem konfigurierbaren Präferenzparameter (Lambda) und zeigte Adaptivität durch erfolgreiche Integration eines neuen Modells zur Laufzeit ohne Policy-Retraining.Die Ergebnisse unterstützen die Umsetzbarkeit und Effektivität des Einsatzes kontextueller Bandit-Algorithmen für echtzeitfähiges, energieeffizientes LLM-Inferenz-Routing. Dieser Ansatz bietet eine praktikable und skalierbare Lösung zur Optimierung der Ressourcennutzung in dynamischen LLM-Bereitstellungsszenarien.
de
Large language models (LLMs) offer unprecedented capabilities but their widespread deployment is constrained by significant computational resource demands during inference, especially energy consumption. Static, one-model-fits-all inference strategies are often inefficient as they fail to leverage the diverse spectrum of available models and do not account for varying query requirements. This thesis addresses this challenge by proposing and evaluating a dynamic, context-aware routing framework designed to optimize the trade-off between inference accuracy and energy efficiency.The proposed middleware framework utilizes contextual multi-armed bandit (MAB) algorithms to learn an adaptive routing policy online. It processes incoming queries by extracting lightweight contextual features (task type, semantic cluster, text complexity) and routes each query to the most suitable model from a heterogeneous pool based on observed performance with respect to accuracy and measured energy consumption. This online learning approach operates under partial feedback, eliminates the need for extensive offline calibration, and simplifies the integration of new models.We implemented and evaluated our framework using established MAB strategies on a diverse set of 5 benchmark tasks and a pool of 16 contemporary open-access LLMs. Experimental results demonstrate that the dynamic routing strategies consistently outperform static (single-model) and random baselines by achieving superior accuracy-energy operating points often beyond the static Pareto front. Compared to random routing, the contextual bandits achieved accuracy gains of 22 percent while reducing cumulative energy consumption by 31 percent. The framework allows effective maneuvering of the accuracy-energy trade-off based on a configurable preference parameter (Lambda) and demonstrated adaptability by successful incorporation of a new model added at runtime without policy retraining.The findings support the feasibility and effectiveness of using contextual bandit algorithms for real-time, energy-efficient LLM inference routing. This approach offers a practical and scalable solution for optimizing resource utilization in dynamic LLM deployment scenarios.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers