Rettig, P. (2025). Adaptive Federated Zeroth-Order Fine-Tuning of Large Language Models on Resource-Constrained Devices [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.129322
Federated Learning; Large Language Model; Edge Computing; Zeroth-Order Optimization; Adaptive Optimization; Communication Efficiency
en
Abstract:
Die föderierte Feinabstimmung mittels Optimierungsmethoden nullter Ordnung (ZO) bietet einen datenschutzfreundlichen und speichereffizienten Ansatz zur Anpassung großer Sprachmodelle (LLMs) auf ressourcenbeschränkten Geräten. Allerdings konvergieren ZO-Methoden deutlich langsamer als Backpropagation-basierte Methoden. Während bereits mehrere clientseitige Anpassungen entwickelt wurden, um diese Einschränkung zu mildern, ist das Potenzial adaptiver serverseitiger Optimierer bislang kaum untersucht. In dieser Arbeit analysieren wir den Einfluss adaptiver serverseitiger Optimierer auf die ZO-basierte föderierte Feinabstimmung von LLMs und untersuchen, wie sich ihr Nutzen mit zunehmender Modellgröße verändert. Dazu evaluieren wir ZO-Varianten von FedAdam und FedAdamW auf einer Reihe unterschiedlicher Aufgaben der natürlichen Sprachverarbeitung (NLP), sowie über zwei Modellfamilien hinweg und vergleichen sie mit einer auf FedAvg basierten Aggregationsstrategie. Unsere Experimente zeigen, dass adaptive serverseitige Optimierer die Anzahl der für die Konvergenz benötigten Runden bei den meisten Aufgaben um etwa 50% verringern können, während die Modellgüte (F1-score, Accuracy, ROUGE-L) innerhalb von 1-2% der nicht adaptiven Baseline bleibt.
de
Federated zeroth-order (ZO) fine-tuning provides a privacy-enhancing and memory-efficient approach for adapting large language models (LLMs) on resource-constrained devices. However, ZO methods converge more slowly than backpropagation-based methods. While several client-side adaptations have been proposed to address this limitation, the potential of adaptive server-side optimizers remains unexplored. In this work, we study the effectiveness of adaptive server-side optimizers in federated ZO fine-tuning of LLMs and examine how their impact varies with model size. We thoroughly test ZO-based variants of FedAdam and FedAdamW in a series of experiments across diverse natural language processing (NLP) tasks and two model families and compare them against a FedAvg based aggregation strategy. In our evaluations, we show that adaptive server-side optimizers can reduce the number of rounds to convergence by roughly 50% on the majority of tasks while maintaining model utility (F1-score, accuracy, ROUGE-L) within 1-2% of the non-adaptive baseline.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers