Maliakel, P. J. (2023). Achieving sustainable federated edge analytics by using incomplete data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.108307
Im rasanten Bereich des Edge Computings sticht das Föderierte Lernen als bedeutende Innovation hervor, um Datenanalytik in dezentralisierten Netzwerken durchzuführen. Dieser Ansatz ermöglicht nicht nur eine unmittelbare Datenverarbeitung, sondern steigert auch die Datenschutzanforderungen der beteiligten Daten. Die Nachhaltigkeit solcher föderierten Systeme wird jedoch durch das wiederkehrende Problem unvollständiger Daten gefährdet, insbesondere im Bereich tabellarischer Daten, die eine Mischung aus kategorialen und numerischen Variablen sowie unausgeglichene Klassendistributionen aufweisen. Dies erschwert die Erzielung genauer und verlässlicher Ergebnisse mit föderierten maschinellen Lernalgorithmen.Um die Nachhaltigkeit des Föderierten Edge-Analytics zu stärken, untersucht diese Arbeit den Einsatz von Generative Adversarial Networks (GANs), um die Leistung des föderierten Lernens in Umgebungen mit unvollständigen Daten zu verbessern. Drei spezifische GAN-Techniken werden eingeführt, von denen jede ihren eigenen Schwerpunkt hat. Das Federated Classwise Sampling GAN zielt auf Ungleichgewichte in der Klassendistribution ab und trainiert separate GAN-Modelle für jede Klassenbezeichnung. Das Federated Classwise Sampling with Client Grouping GAN fügt dem Training eine zusätzliche Stabilitätsebene hinzu, indem es Clients aufgrund ähnlicher Stichprobengrößen für bestimmte Klassenbezeichnungen gruppieret. Die von diesen GANs generierten synthetischen Daten werden verwendet, um föderierte Lernmodelle zu trainieren und ihre Effektivität bei der Milderung der Nachteile unvollständiger Daten zu erforschen.Die Arbeit wird anhand von drei unterschiedlichen tabellarischen Datensätzen ausgewertet. Die Ergebnisse der Studie haben gezeigt, dass das Federated Classwise Sampling GAN und das Federated Classwise Sampling with Client Grouping GAN die Modellgenauigkeit um 4% bzw. 17% für die Datensätze "Adult" und "Intrusion" verbessert haben. Bemerkenswert ist, dass unsere vorgeschlagene Technik des Federated Classwise Sampling with Client Grouping GAN Stabilität in der Genauigkeit und weniger Ausführungszeit gezeigt hat, was sie besonders für nachhaltiges Föderiertes Edge-Analytics in realen Szenarien, in denen Datenunvollständigkeit eine Herausforderung darstellt, geeignet macht. Zusammenfassend hebt diese Arbeit das transformative Potenzial von GAN-Techniken zur Verbesserung von föderierten Lernmodellen im Kontext unvollständiger Daten hervor. Insbesondere zeigt unsere vorgeschlagene Methode des Federated Classwise Sampling with Client Grouping GAN sowohl Stabilität als auch Effizienz und positioniert sie als nachhaltige Lösung für reale Szenarien, in denen Datenunvollständigkeit eine Rolle spielt.
de
In the fast-paced world of edge computing, Federated Learning stands out as a key innovation for performing data analytics across decentralized networks. This approach not only allows for immediate data processing but also enhances the privacy of the data involved. However, the sustainability of such federated systems is jeopardized by the recurring issue of incomplete data, particularly in the realm of tabular data featuring a mix of categorical and numerical variables, and imbalanced class distributions. This makes it difficult to achieve accurate and dependable results with federated machine learning algorithms.To fortify the sustainability of Federated Edge Analytics, this thesis investigates the application of Generative Adversarial Networks (GANs) to improve federated learning performance in environments characterized by incomplete data. Three specific GAN techniques are introduced, each with its unique focus. Federated GAN serves as a existing generalized approach without specialization, potentially less efficient for complex, imbalanced datasets. Federated Classwise Sampling GAN targets imbalances in class distribution, training separate GAN models for each class label. Federated Classwise Sampling with Client Grouping GAN adds an extra layer of stability to training by grouping clients based on similar sample counts for specific class labels. The synthetic data generated by these GANs are used to train federated learning models, exploring their effectiveness in mitigating the drawbacks of incomplete data.The thesis is evaluated across three distinct tabular datasets. The study's findings have revealed that, while Federated Classwise Sampling GAN and Federated Classwise Sampling with Client Grouping GAN improved model accuracy by 4% and 17% for the Adult and Intrusion datasets, respectively, the simple Federated GAN actually led to decreased performance. Remarkably, our proposed Federated Classwise Sampling with Client Grouping GAN technique demonstrated stability in accuracy and less execution time, making it highly suitable for sustainable Federated Edge Analytics in real-world scenarios where data incompleteness is a challenge.In summary, this thesis highlights the transformative potential of GAN techniques in enhancing federated learning models in the context of incomplete data. Notably, our proposed Federated Classwise Sampling with Client Grouping GAN demonstrates both stability and efficiency, positioning it as a sustainable solution for real-world scenarios where data incompleteness is a concern.