dc.description.abstract
Federated Learning (FL) ist eine verteilte Machine Learning (ML) Methode, die sich auf Datenschutz fokussiert. In ihrer üblichen Ausführung berücksichtigt sie jedoch nicht, wie viel ein Client zum globalen Modell beiträgt. Da das trainierte globale Modell einen hohen monetären Wert haben kann, könnten Clients dazu verleitet sein, nicht selbst zu trainieren, sondern gefälschte Modellaktualisierungen zu senden. Folglich würden solche Clients das globale Modell erhalten, ohne großen Aufwand betreiben zu müssen. Schlussendlich führt das zu einer ungerechten Verteilung von Belohnungen (globales Modell). Ein Client, der sich so verhält nennt man free rider. Aufgrund der Gefahr von free rider Attacken werden free rider Detektionen benötigt. Dadurch, dass FL ein verteilter Ansatz ist, hat der Server jedoch nur limitierte Möglichkeiten und Informationen zur Verfügung um zu entscheiden, ob ein Client eine free rider Attacke ausführt. Die Unterscheidung zwischen free rider und normalen Clients ist dabei besonders schwer, wenn die Daten der Clients unterschiedlich verteilt sind.Da sich free rider Attacken und Detektionen hinsichtlich ihrer Charakteristiken sehr unterscheiden, führen wir eine Evaluierung durch, die diese Unterschiede adressiert. Nach unserem Kenntnisstand sind wir die ersten, die eine systematische Bewertung und einen Benchmark von Angriffen und Detektionsmethoden für verschiedene Rahmenbedingungen durchführen.Durch unsere Literaturrecherche haben wir festgestellt, dass bestehende Arbeiten unterschiedliche Rahmenbedingungen (z.B. unterschiedliche Datensätze, Anzahl der Clients) verwenden. Darüber hinaus gehen die Arbeiten von unterschiedlichen Annahmen aus, was zu Angriffen und Detektionen mit unterschiedlichen Charakteristiken führt.Es stellt sich heraus, dass einige Ansätze intuitiv und verständlich sind, während andere Annahmen treffen, die in realen Szenarien wahrscheinlich nicht gegeben sind. Daher kommen wir zu dem Schluss, dass die Ergebnisse der einzelnen Arbeiten nicht miteinander vergleichbar sind.Aufgrund dessen führen wir Experimente mit ausgewählten Attacken und Detektionen durch. Wir spezifizieren unsere Herangehensweise unter Zuhilfenahme von Konzepten die in CRISP-DM vorgestellt wurden.Wir haben festgestellt, dass die random weights Attacke zwar eine wichtige Ausgangsbasis ist, jedoch am schlechtesten abgeschnitten hat. Die anderen drei Attacken im Benchmark -- welche alle auf die Differenz zwischen globalen Modellen aufbauen -- zeigten keine signifikanten Unterschiede im Bezug auf deren Effektivität.Bezüglich den Detektionsmethoden stellte sich jedoch heraus, dass Delta-DAGMM, RFFL und FGFL nicht gut abschnitten. Ihre Schwächen liegen entweder in der Zeit, die benötigt wird um einen Detektor zu trainieren (Delta-DAGMM), oder in ihrer Ineffektivität unter fast allen Rahmenbedingungen (RFFL, FGFL).Es stellte sich heraus, dass die Detektionen Viceroy und WEF am besten abschnitten, wobei selbst sie nicht in allen Bedrohungsmodellen gute Ergebnisse lieferten. Wir simulierten auch paarweise Kombinationen von Detektionen. Dabei stellte sich heraus, dass für ein bestimmte Rahmenbedingung keine Kombination eine signifikant bessere Performanz liefert als die beste individuelle Detektionsmethode. Als wir jedoch die durchschnittlichen Performanz über alle Rahmenbedingungen hinweg berechneten, stellte sich heraus, dass die besten Ergebnisse durch Kombinationen von Viceroy mit anderen Detektionen erreicht werden. Insbesondere erkannte die Kombination von Viceroy und WEF die meisten free rider.Für zukünftige Detektionen empfehlen wir daher, dass auf die Ansätze, die in Viceroy und WEF verwendet werden aufgebaut und sie kombiniert bzw. auch verbessert werden.Im Allgemeinen haben wir festgestellt, dass die Wahl von guten Hyperparametern (wie z.B. Thresholds) schwierig ist. Oft führt das Ändern von Hyperparametern zu einem Kompromiss zwischen Precision und Recall.Abschließend stellen wir fest, dass eine Detektionsmethode, die leicht in bestehende Systeme integriert werden soll, Thresholds automatisch basierend auf den jeweiligen Rahmenbedingungen (z.B. ML-Modell, Anzahl der Clients) ermitteln sollte, oder erst gar nicht von solchen Rahmenbedingungen abhängen soll.
de