Neural network splitting for energy-efficient edge-AI

May, Daniel Bernhard

doi:10.34726/hss.2025.111983

Record link:

https://doi.org/10.34726/hss.2025.111983
http://hdl.handle.net/20.500.12708/208795

Title:

Neural network splitting for energy-efficient edge-AI

Citation:

May, D. B. (2024). Neural network splitting for energy-efficient edge-AI [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.111983

reposiTUm DOI:

10.34726/hss.2025.111983

CatalogPlus:

AC17408714

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

May, Daniel Bernhard

Advisor:

Brandic, Ivona

Co-advisor:

Ilager, Shashikant Shankar

Organisational Unit:

E194 - Institut für Information Systems Engineering

Date (published):

2024

Number of Pages:

Keywords:

energy-aware inference; neural network splitting; model inference; optimization; edge computing; cloud computing

Abstract:

Der Einsatz von KI-Modellen auf ressourcenbeschränkten Edge-Geräten wird durch begrenzte Rechenkapazitäten und hohen Energiebedarf erschwert. Split Computing bietet eine Lösung, bei der große neuronale Netze aufgeteilt werden und eine partielle Berechnung sowohl auf Edge- als auch auf Cloud-Geräten ermöglicht wird, wobei ein Gleichgewicht zwischen Energieeffizienz und Latenzanforderungen angestrebt wird. Die Bestimmung der optimalen Split-Ebene und Hardwarekonfigurationen ist jedoch nicht trivial. Diese Komplexität ergibt sich aus dem großen Konfigurationsraum, nichtlinearen Abhängigkeiten zwischen Software- und Hardwareparametern, heterogenen Hardwareeigenschaften und dynamischen Lastbedingungen. Um diese Herausforderungen zu bewältigen, schlagen wir DynaSplit vor, ein umfassendes zweistufiges Hardware-Software-Optimierungsmodell. DynaSplit konfiguriert dynamisch sowohl Software-Parameter (d.h. die Split-Ebene) als auch Hardware-Einstellungen (z.B. Beschleunigernutzung, CPU-Frequenz) zur Leistungsoptimierung. In der Offline Phase gehen wir das Problem mit einem multikriteriellen Optimierungsansatz an, indem wir einen meta-heuristischen Algorithmus nutzen, um Pareto-optimale Konfigurationen zu finden. In der Online-Phase identifiziert ein Scheduling-Algorithmus die am besten geeigneten Einstellungen für jede eingehende Inferenzanfrage, um einen minimalen Energieverbrauch zu gewährleisten und gleichzeitig die durch die Quality of Service (QoS)-Vorgaben der Anwendung definierten Latenzanforderungen zu erfüllen. Unsere Implementierung von DynaSplit, die an einem realen Prototyp unter Verwendung gängiger vortrainierter KI-Modelle getestet wurde, zeigt erhebliche Energieeinsparungen und Leistungsverbesserungen. Experimentelle Ergebnisse zeigen, dass DynaSplit den Energieverbrauch im Vergleich zu reinen Cloud-Berechnungen um bis zu 72% reduzieren kann und ca. 90% der benutzerspezifischen Latenzanforderungen erfüllt, was eine deutliche Überlegenheit gegenüber herkömmlichen Baselines darstellt.

The use of AI models on edge devices with limited resources faces obstacles due to insufficient computational capacity and excessive energy consumption. Split computing addresses this issue by dividing neural networks (NNs) so that some computations occur on edge devices and some in the cloud. This approach manages energy efficiency and latency demands. However, finding the best layer to split and correct hardware setups is complex. This difficulty is due to a vast array of configurations, non-linear interactions between software and hardware, diverse hardware features, and fluctuating workload scenarios.In response to these hurdles, we introduce DynaSplit, an extensive framework to optimize hardware and software in two distinct phases. DynaSplit dynamically adjusts software components, such as the split layer, along with hardware configurations such as accelerator usage and CPU frequency, to enhance performance. During the Offline Phase, we tackle the optimization issue employing a multi-objective approach with a meta-heuristic algorithm to find Pareto-optimal setups. Meanwhile, the Online Phase employs a scheduling algorithm to select the optimal settings for every incoming inference task, thereby minimizing energy usage while adhering to the latency thresholds imposed by the application's quality of service (QoS) constraints.By deploying DynaSplit on a real-world prototype with widely-used pre-trained AI models, we achieved notable energy efficiency while meeting application requirements. Our experimental data indicate that DynaSplit can reduce energy usage by as much as 72% in contrast to cloud-only solutions and can meet around 90% of user-defined latency targets, thus greatly exceeding baselines.

License:

In Copyright

Appears in Collections:

Thesis